正値連続データに対するベイズ的スパース信号検出

本研究成果のポイント

〇スパースな正値データに対して、ガンマ分布に基づく新たな階層ベイズモデルを提案した。

〇提案手法は、ある状況下ではシグナルとノイズを適切に分離することが可能であることを数学的に証明した。

〇推定値を計算するための効率的なマルコフ連鎖モンテカルロアルゴリズムを提供し、ソフトウェアパッケージを公開した。

〇応用例として、COVID-19の地域別・年齢別の平均入院期間のデータ分析を行い、提案手法が有意に入院期間が長い地域・年齢層を適切に特定できることを確認した。

概  要

 多くの応用の場面で、生存時間や故障時間、ある地域の平均所得などの正の連続値を取るようなデータが観測される。このようなデータがもつ特徴の一つとして、多くのデータはある共通の平均をもつ(ノイズ)が、数少ない一部はその共通平均からは有意に外れている(シグナル)ことが挙げられる。このような特徴をスパース性といい、実数値を取る観測(例えば、正規分布に従うデータ)や非負整数値観測(例えば、ポアソン分布)に対しては多くの研究がなされてきた。 

 本研究では、正値の観測をモデル化する際の代表的な統計モデルであるガンマ分布に基づいて、データのスパース性を適切に扱うことのできる階層ベイズモデルを提案し、その効率的な計算アルゴリズムを構築し、推定量の理論的性質を証明した。このプロジェクトに関する先行研究は少なく、ベイズ統計学の枠組みでは初めての取り組みであると思われる。 

 応用例として、韓国のCOVID-19の平均入院期間に関するデータを用いた分析を行った。データは地域・年齢層別にグループ化されたもので共通の平均入院期間は約3週間であると推定された。提案手法を用いることにより、3週間より有意に長い入院期間をもつ地域・年齢層を高精度に特定することが可能であることを示した。これらの技術は、今後の感染対策をはじめ政策決定などの意思決定の場面で活用されることが期待される。 

 


【論文情報】
Yasuyuki Hamura, Takahiro Onizuka, Shintaro Hashimoto and Shonosuke Sugasawa, "Sparse Bayesian Inference on Gamma-Distributed Observations Using Shape-Scale Inverse-Gamma Mixtures", Bayesian Anal. 19(1), 77-97, 2024 

https://doi.org/10.1214/22-BA1348 

 


up