遺伝性疾患のAIによる診断、現状と課題が明らかに

遺伝性疾患プラス編集部

POINT

  1. 63の遺伝性疾患について10種類のAI(大規模言語モデル)の診断精度を検証した
  2. 教科書的な症状の記述からは高精度で診断できたが患者さんの記述では精度が著しく低下した
  3. 医療現場での実用化にはまだ改善が必要

最高性能のLLM(GPT-4)は教科書的な質問に対し90%の正確性

米国国立衛生研究所(NIH)は、人工知能(AI)ツールを用いた遺伝性疾患の診断について、「教科書的な症状の記述」からは正確な診断を導き出せる一方で、「患者さん自身による症状についての記述」を分析すると診断精度が大幅に低下することを発見したと発表しました。医療現場でAIツールを診断や患者さんの質問回答に活用するには、現状、まだ改善が必要な状況ということです。

NIHの研究グループは、大量のテキストデータで訓練された「大規模言語モデル(LLM)」と呼ばれる種類のAIを用いて研究を行いました。LLMは、医療分野での活用が期待されています。というのは、質問を分析して回答する能力を持ち、しばしばユーザーフレンドリーなインターフェースを備えているからです。

研究には、ChatGPTの最新バージョン2つを含む10種類のLLMを用いました。また、研究グループは医学書やその他の参考資料をもとに、63種類の遺伝的疾患に関する質問を設計しました。この中には、鎌状赤血球症嚢胞性線維症マルファン症候群などのよく知られた疾患のほか、多くの希少遺伝的疾患も含まれていました。これらの疾患は、患者さんによって症状がさまざまですが、研究では最も一般的な3~5つの症状を選び、「私にはX、Y、Zの症状があります。最も可能性の高い遺伝性疾患は何ですか?」という形で質問を作りました。

これらの質問をLLMに投げかけてみたところ、正しい回答を導き出す能力はLLMの種類によって大きな幅がありました。精度の幅は21~90%で、最も成績が良かったモデルはChatGPT-4でした。この精度の違いは、LLMの訓練に用いられているデータの量と相関していました。最小のLLMでも数十億のパラメータがありますが、最大のLLMには1兆を超えるパラメータがあります。研究グループはその後の実験で、多くの低パフォーマンスLLMで精度を向上させることができました。そして全体的に、LLMは非AI技術(標準的なGoogle検索など)よりも正確な回答を導き出せました。

患者さんのさまざまな言い回しや書きぶり、背景の多様性に対応することが課題

研究グループはさらなる精度向上のために、さまざまな方法で最適化を試みました。その中には、医学用語をより一般的な言葉に置き換えることも含まれていました。例えば、子どもが「大頭症」であると記述する代わりに、「頭が大きい」と表現しました。これは、患者さんやケアギバーの方などが医師に症状を説明する際の言い方により近いものだからです。この結果、全体的に、医学的な言葉を使わないで説明をすると、精度は低下しました。ただし、一般的な言語を使用しても、10個中7個のLLMはGoogle検索よりも高い精度を保ちました。

研究グループは次に、実際の患者さんからの情報を用いた場合のLLMの有用性を調べるために、NIH臨床センターにかかっている患者さんに、自身の遺伝性疾患と症状について短く書いたものを提出してくださいとお願いしました。提出された症状に関する文章は、1文のものから数段落のものまであり、内容もさまざまでした。これらをLLMに投げかけてみたところ、最もパフォーマンスの高いLLMでも正確な診断を下せたのはわずか21%でした。多くのLLMのパフォーマンスはそれよりずっと低く、精度は1%程度でした。

NIH臨床センターにかかっている患者さんは、極めてまれな症状を抱えていることが多いため、患者さんが症状について書いたものをLLMで診断させるのは、もともとLLMが十分な情報を持っていないために困難であった可能性が考えられました。

しかし、患者さんと同じ超希少な遺伝的疾患の症状について、標準的な文章を投げかけたところ、精度は向上しました。これにより、LLMが簡潔で標準的な文章で構成される教科書や参考資料で訓練されていたため、患者さんによるさまざまな言い回しや書きぶりを解釈するのは難しかったことが示されました。

今回の研究により、LLMの改善の余地が示されただけでなく、LLMの現在の限界と、AIを医療に適用する際には人間による監視が継続的に必要であることが強く示されました。NIHの国立ヒトゲノム研究所(NHGRI)の臨床ディレクターであるベン・ソロモン医学博士は次のように述べています。「LLMによるAI診断モデルを将来臨床的に有用なものにするためには、より多くの、患者さんの多様性を反映するデータが必要です。既知の症状だけでなく、年齢、人種、性別、文化的背景などの多様性も捉える必要があるでしょう。AI技術はすでに臨床現場に導入されています。最大の問題は、もはや臨床医がAIを使用するかどうかではなく、臨床医がどこでどのようにAIを使用すべきか、そして患者さんに最善の治療を提供するためにAIをどこでは使用しないべきか、ということです。」(遺伝性疾患プラス編集部)

関連リンク