NEDO、医療業務支援の日本語LLM開発 専門医試験模試で正答率90.8%
掲載日:
NEDO(新エネルギー・産業技術総合開発機構)は5月28日、同機構が推進した事業で、医療機関のオンプレミス環境や医療機関が管理する国内クラウド環境で運用可能な医療業務支援向け日本語LLM(大規模言語モデル)を、東京大やさくらインターネットなど10者が開発したと発表した。専門医試験を模した学術試験では、RAG(検索拡張生成)を使った追加学習モデルで最大90.8%の正答率となり、主要な商用LLMの91.4%に迫る水準を記録した。日本の医療特性を踏まえた安全性検証も行い、性能と安全性の両立を確認した。

開発したモデルは、公開されているオープンなLLMをベースに、日本の診療ガイドライン、専門医試験問題、臨床事例などの医療教材から生成したデータで追加学習した。ガイドラインに沿った応答を評価する指標では、ベースモデル比で最大10.8ポイント改善した。加えて、独自アーキテクチャによる国産フルスクラッチ開発モデルも構築し、将来の国産基盤モデル開発につながる技術知見も蓄積した。

安全性面では、患者情報がモデルに記憶されるリスクの定量評価手法を確立したほか、患者情報を自動検出・マスキングする機能を実装した。日本の医療特性を踏まえた5万件超の対話型安全性ベンチマークを策定・公開し、6000件規模のレッドチーミング(攻撃者視点で意図的に攻撃を仕掛け、システムの脆弱性を体系的に評価する手法)も実施した。
検証の結果、追加学習後もベースモデルと同等の高い安全性を維持できることを確認した。一方、ベースとなるLLMの選択が安全性維持を大きく左右することも分かった。
医療従事者の事務・文書業務の支援を想定したユースケース検証では、検査名称からJLAC11コードへの自動変換で最大80.3%の精度を達成したほか、脳卒中レジストリ構築を想定した症例データの自動整理で92.2%を記録した。
退院時サマリーの下書き作成では、専門医9人による品質評価で5点満点中4.748となり、商用LLM相当の品質を示した。複数の電子カルテシステムに自然言語で問い合わせる接続方法も確立した。NEDOは、一連の検証について、事務作業や文書作成の補助を目的としたもので、診断や治療そのものを行うものではなく、最終判断は医師や医療従事者が担うとしている。
今後は、今回の研究成果を関係機関と連携しながら段階的に社会実装に取り組む。社会実装では、安全性と信頼性の確保を最優先にし、医療機関などとの対話を重ねながら導入を進めるとしている。