• ホームHome
  • 【研究成果】医療AIの精度を高める新手法~少数派に弱いAIの弱点の克服~

【研究成果】医療AIの精度を高める新手法~少数派に弱いAIの弱点の克服~

本研究成果のポイント

  • 医療データを活用したAI(医療AI)※1は、大量のデータを学習することで高精度の予測が可能ですが、偏ったデータ(例:特定の患者層が多い)では、AIは少数派のケースを無視し、予測が多数派に偏る弱点があります。
  • このAIの弱点を解決するためにオーバーサンプリング手法※2が開発されましたが、多くの特徴量(例:年齢、血液検査値など)を含む「多次元データ※3」では、この補正が難しい状況でした。
  • 本研究では「超多次元データ※4」においてもそれぞれのデータの次元で少数派のデータを仮想的に増やして学習性能を改善する新たなアルゴリズムで、ガウシアンノイズ※5を用いた不均衡補正法であるGNUS(Gaussian Noise Up Sampling)※6を開発し、このアルゴリズムによって予測が偏ることを防ぎながら予測精度も向上させることに成功しました。
  • このGNUSによって、がん患者の術後の再発予測の精度向上や、その他の疾病についても活用することが期待できる。

概要

 広島大学 大学院医系科学研究科 放射線腫瘍学の岡宏貴大学院生、河原大輔講師、村上祐司教授らの研究グループは、Radiomics解析※7を用いた機械学習による予後予測において、医用画像の不均衡を補正する技術を開発し、CT画像とPET画像を使用した頭頸部がんの再発予測において、GNUSを利用し、データ不均衡によるAI予測精度の多数派への偏りを減らし、さらに予測精度を改善することに成功しました。
 本研究成果は、2024年7月26日に国際学術雑誌である「Computers in Biology and Medicine」オンライン版に掲載されました。

発表論文

  • 論文タイトル
    Radiomics-based prediction of recurrence for head and neck cancer patients using data imbalanced correction
  • 著者
    岡宏貴a, 河原大輔a* , 村上祐司a
    a 広島大学大学院医系科学研究科 放射線腫瘍学
    *     責任著者
  • 掲載雑誌
    Computers in Biology and Medicine
  • DOI番号
    https://doi.org/10.1016/j.compbiomed.2024.108879

背景

 近年、AIはさまざまな分野で注目を集めており、医療分野でも研究が活発に進められています。特に、機械学習とCTやPETなどの医用画像を組み合わせ、がん予後や治療効果を予測する「Radiomics解析」という手法が注目されています。この手法では、医用画像から人の目では捉えられない特徴を抽出し、AIが学習することで高度な予測を行います。
 しかし、医用画像解析には「データの不均衡」という問題があります。具体的には、解析対象となる症例の割合に偏りがあるため、AIは多数派のデータに基づいた予測を優先し、少数派の症例について正確な予測を行えなくなることがあります。このデータの偏りが、AIの能力を十分に発揮できない原因の一つとなっています。その結果、予測精度が低下し、AIの有用性が損なわれることがあります。
 この課題の解決するために、我々の研究チームは、超多次元データにおいてそれぞれの次元においてガウシアンノイズを用いた少数派のデータを仮想的に増やすことによるデータ不均衡補正法を開発し、多数派に偏るAIの弱点を補正し予測精度改善に有効か検証を行いました。

研究成果の内容

本研究では、頭頸部扁平上皮がん患者の再発予測を対象に、ガウシアンノイズを利用した不均衡補正法(GNUS)の効果を検証しました。

  • 補正前後の感度、特異度、精度、AUC(予測の全体的な性能を示す指標)
    感度:83%(補正前)→93%(GNUS適用後:+10%向上)
    特異度:96%(補正前)→94%(GNUS適用後:わずかな低下だがバランス向上)
    精度:92% (補正前)→94%(GNUS適用後:+2%向上)
    AUC:0.96(補正前)→0.98(GNUS適用後:+0.2向上)
    これらの結果は、GNUSによってAIが多数派に偏る傾向を抑えつつ、全体の予測精度が高まることを示しています。

今後の展開

 本研究は、医療AIにおける弱点となる多数派に偏る予測を改善するための新たなAIシステムを開発しました。精度も臨床応用が可能な精度になっており、今後は臨床で働く医師と協力して導入を検討するとともに、汎用性を高めるために他の施設におけるデータを使用した検証、アプリケーション開発を目指していきます。

参考資料

図1.予測モデル構築までの流れ。CT画像とPET画像に対してRadiomics解析を行い、画像から特徴量を抽出します。抽出された特徴量と再発の有無との関係をLASSO回帰※8により調べ、予測に不要な特徴量を削除します。再発例と無再発例の症例数の不均衡を補正するために、再発例の特徴量を従来の手法であるSMOTE※9や本研究で開発したGNUSを用いて生成します。これらの特徴量を予測因子として機械学習(KNN、SVMなど)を行い、再発の有無を予測します。

表1. 機械学習アルゴリズムとして線形モデルを用いた際の予測結果

再発を正しく予測した割合を感度、無再発を正しく予測した割合を特異度、全体の予測の正しさを精度としています。不均衡を補正しない場合、感度が83 %, 特異度が96 %, 精度が92%, AUC※10が0.96となり、感度と特異度の間に13 %の差がありました。従来の不均衡補正法のひとつであるADASYN※11の結果は、感度90 %, 特異度93 %, 精度91 %, AUC 0.97となり、感度と特異度の差が3 %に抑えられました。本研究で開発したGNUSでは、感度 93%, 特異度 94 %, 精度94 %, AUC 0.98となり感度と特異度の差が1%と従来法に比べ、抑えられました。さらに、精度とAUCが不均衡を補正しないときに比べて向上しました。

用語解説

医療データを活用したAI解析(医療AI)※1:医療現場では、患者の病歴、検査結果、治療効果など多くのデータが蓄積されます。これらの膨大な医療データをAIが解析することで、病気の予測や早期発見、治療法の最適化、さらには医療リソースの効率的な活用など、多岐にわたるメリットを生み出します。

オーバーサンプリング手法※2:不均衡データの少数派サンプルを合成して多数派に合わせて増やすという方法。

多次元データ※3:医療データは、CT検査やPET検査の画像データや、血液検査の数値データなど次元が異なるデータが存在する。

超多次元データ※4:多次元データの中でも、非常に多くの次元(特徴量)を持つデータを指します。例えば、医用画像から抽出される数百~数千以上の特徴量(Radiomics特徴量など)が含まれる場合、これを「超多次元データ」と定義しました。

ガウシアンノイズ※5:Gaussian noise、ガウス分布(正規分布)に従う確率的なノイズのことを指す。ノイズとは、信号やデータに不要なランダムな変動が加わることで、ガウシアンノイズはその中でも特にガウス分布に従うノイズを指す。 

GNUS(Gaussian Noise Up Sampling)※6:ガウシアンノイズを用いた不均衡補正法。

Radiomics解析※7:「Radiology(放射線医学)」の英単語に「omics(網羅的解析)」を付けた造語。病変の生物学的情報と医用画像から抽出した多数の定量的な特徴量を関連付けて網羅的に解析すること。

LASSO回帰※8:正則化された線形回帰の一つで、線形回帰に学習した重みの合計(L1正則化項)を加えたもの。

SMOTE※9:代表的なオーバーサンプリングの手法の一つ、Synthetic Minority Oversampling TEchniqueの略、データを人工的に生成する手法。

AUC※10:Area Under the Curveはその曲線の下部分の面のことで、AUCの面積が大きいほど一般的に機械学習の性能が良い事を意味する。

ADASYN※11:オーバーサンプリングの手法の一つ、ADAptive SYNtheticの略、少数派クラスのデータ付近に多数派クラスがどれくらい存在するのかの情報(重み)を動的に加味して増やす手法。

【お問い合わせ先】

 病院放射線部 講師 河原大輔
 Tel:082-257-1545 FAX:082-257-1546
 E-mail:daika99*hiroshima-u.ac.jp
 (*は半角@に置き換えてください)
 


up