生成AIのハルシネーションに医師はどう向き合う？医療現場のリスクと対策

こんにちは。OpenEvidence日本担当の前田です。

今回は、医師・医療従事者の方向けに「生成AIのハルシネーション対策」を解説します。

次のような疑問や悩みありませんか？

生成AIを使いたいけど、嘘の情報が怖い
AIの回答を信じて医療事故が起きたら、責任が不安
患者情報を守りながら、安全にAIを使う方法を知りたい

結論から言うと、生成AIは医療現場でも使えます。

ただし、使い方を間違えると危険です。

理由は、生成AIには「もっともらしい嘘」を出す性質があるからです。これをハルシネーションと呼びます。

とはいえ、怖がってまったく使わないのも、少しもったいないです。

カルテ作成、文書作成、情報整理、患者説明の下書きなど、AIで効率化できる業務は多いからです。

大切なのは、AIを信じることではありません。AIを「検証しながら使う」ことです。

この記事では、次の内容を解説します。

生成AIが架空の論文や嘘の情報を出す理由
医療現場でハルシネーションが起きる主な原因
誤った薬物処方がもたらす危険性
医師の法的責任と、現場でできる対策
RAGや医療特化型AIを使った実務的な防衛策

「AIをどう使えば危ないのか」「どう使えば安全性を高められるのか」を整理します。なお、医師向けの生成AIの考え方を網羅的に解説している記事「臨床で使えるエビデンスベースAIの全体像」もご利用下さい。

生成aiのハルシネーションに医師が直面するリスク
医師の生成AIのハルシネーション対策の具体的な防衛策

生成aiのハルシネーションに医師が直面するリスク

診察室で、タブレットに表示されたAIの回答を見ながら、生成された情報の信頼性について不安げに考え込む日本人医師。

ChatGPT等が架空の論文を捏造するメカニズム
医療現場におけるハルシネーションの主な要因
誤った薬物処方による臨床上の致命的な危険性
医療事故が発生した際の医師の法的責任と義務

生成AIは便利ですが、医療現場ではリスクがあります。

なぜなら、AIは正しい医学知識を理解しているわけではなく、「それっぽい文章」を作っているからです。

ここを理解しないまま使うと、かなり危険です。

そして医療現場では、こうした小さな誤りが患者さんの健康被害につながります。

まずはAIがなぜ嘘をつくのかを理解しましょう。

汎用性生成AIが架空の論文を捏造してしまうメカニズム

結論です。ChatGPTなどの生成AIは、事実を理解しているわけではありません。

あくまで、「次に来そうな言葉」を予測して文章を作っています。

これがLLM、大規模言語モデルの基本的な仕組みです。

たとえば、人間なら「この論文は実在するのか？」と確認できます。

しかし、AIは文脈上それらしく見える情報を作ってしまうことがあります。

その結果、存在しない論文タイトル、存在しない著者名、存在しないPubMed IDを、自然な文章で出してしまいます。

これがハルシネーションです。

怖いのは、文章がとても自然なことです。

明らかに変な文章なら、すぐに疑えます。

しかし、AIの文章は読みやすく、論理的に見えます。だからこそ、人間は「たぶん正しいだろう」と思ってしまいます。

これを自動化バイアスと呼びます。

医療現場では、このバイアスが非常に危険です。

AIの回答は、調べものの入口としては便利です。

しかし、最終根拠にはなりません。

医療現場におけるハルシネーションの主な要因

医療現場でハルシネーションが起きる最大の要因は、AIが「医学的に正しいか」ではなく、「医療っぽく自然に見えるか」で文章を作ってしまうことです。

AIは、医師のように病態や薬理を理解しているわけではありません。

あくまで、前後の文脈から「次に来そうな言葉」を予測しているだけです。

そのため、中身が間違っていても、もっともらしい回答として出力してしまいます。

怖いのは、間違いが間違いらしく見えないことです。

AIの回答は流暢で、専門的で、正しそうに見えます。しかし、文体が医療っぽいことと、中身が正しいことは別問題です。

だからこそ、AIの回答が自然なときほど疑うべきです。薬剤名、用法用量、検査値、診断名、引用文献は、必ず一次情報で確認してください。

医療現場で大切なのは、AIにうまく答えさせることではありません。AIの答えを、医師が正しく疑える状態にしておくことです。

汎用生成AIの回答は「ミスをする部下」との認識で使う

生成AIの提案を信じて医療事故が起きた場合、最終的な責任は医師個人と医療機関に残る可能性が高いです。

理由は、診断や治療の主体は、あくまで医師だからです。

AIは医師ではありません。

どれだけ高度な回答をしても、最終判断者にはなれません。

そして、その判断に誤りがあれば、医師の注意義務違反が問われる可能性があります。

医療訴訟では、「AIがそう言ったから」という理由だけでは免責されにくいです。

問われるのは、当時の標準的な医療水準から見て、その判断が妥当だったかどうかです。

AIが言っているから正しいはず。この思い込みが、事故につながります。

AIは、優秀な上司ではありません。

ミスをする部下です。

このくらいの距離感で使うべきです。

AIを使うこと自体が悪いわけではありません。

危険なのは、確認せずに使うことです。

医師の生成AIのハルシネーション対策の具体的な防衛策

診察室で、タブレットに表示されたAIの回答を見ながら、生成された情報に安心している日本人医師。

個人特定情報を入力しないプロンプトの工夫
エビデンスベースAIやRAGツールの活用
OpenEvidence等の医療特化型ツールの役割
添付文書や国内指針との2段階リファレンス
日本医師会が求めるシステム要件と強制介在

ここからは、具体的な対策です。

ここまで読むと、「やはり医療現場でAIを使うのは危ないのでは」と感じるかもしれません。

AIは危険だから使わない、ではありません。リスクを管理して使うべきです。

大前提として、個人特定情報を入力しない

これはハルシネーション対策ではありませんが、患者の個人情報を入力しないことは生成AIを利用するうえでの大前提です。

外部AIツールでは、入力データがサービス改善や学習に使われる可能性があります。

患者さんの氏名、住所、生年月日、患者ID、勤務先など、個人が特定される情報は入力しないようにしましょう。

AIに入力する場合は、「70代男性、主訴は労作時息切れ」のように、臨床上必要な情報だけに抽象化します。

AI活用の第一歩は、個人を特定できる情報を入れないことです。

エビデンスベースAIやRAGツールの活用

信頼できる医療データソース（ガイドライン、添付文書、論文など）がAIサーバーに引き込まれ、統合された回答が生成されるRAG（検索拡張生成）の仕組み。ハルシネーションを減らすエビデンスベースAIのイメージ

ハルシネーションを減らすには、RAGを使うのが有効です。

RAGとは、検索拡張生成のことです。

簡単に言うと、AIが自分の記憶だけで答えるのではなく、信頼できる資料を検索して、その根拠をもとに回答する仕組みです。

通常の生成AIは、学習済みデータから文章を作ります。

そのため、情報が古かったり、根拠が曖昧だったりすると、ハルシネーションが起きやすくなります。

一方でRAGでは、最新の診療ガイドライン、添付文書、院内マニュアル、医学論文などを参照できます。

つまり、AIに「思いつきで答えさせる」のではなく、「根拠を見ながら答えさせる」わけです。

これは、医療AIではかなり重要です。

ただし、RAGを使えば完全に安全、というわけではありません。

参照先の資料が古ければ、回答も古くなります。

検索精度が低ければ、関係ない資料を根拠にすることもあります。

なので、RAGツールを選ぶときは、次の点を確認しましょう。

どの情報源を参照しているか
情報源は定期的に更新されるか
回答に根拠リンクが表示されるか
参照元と回答内容を人間が確認できるか

RAGは、AIのハルシネーション対策として強力です。

ただし、最終確認は人間が行います。

この原則は変わりません。

出典の確認と国内指針との2段階リファレンス

医療従事者が、汎用性の高い生成AIの回答を使う前に、2段階で確認することでハルシネーションを使ってしまうリスクを減らすことが出来ます。

第1段階：AIが示した根拠リンクや文献を確認する
第2段階：国内の添付文書、PMDA、学会ガイドラインで確認する

AIは、調べる時間を短縮するために使います。

しかし、自分で一次情報を確認することでより責任をもった判断ができます。

この2段階リファレンスを自分で活用する際のルールにしておくと、属人的な確認漏れやハルシネーションによる間違いを減らせます。

OpenEvidence等のエビデンスベースツールの役割

よりハルシネーションを減らすことが出来るエビデンスベースのAIツールを使うことも取れる選択肢の一つです。

エビデンスベースのAIツールは、回答の根拠となる医学文献やガイドラインを参照とした回答を生成しその出典も利用者が確認して使えるからです。

医療現場で大切なのは、AIの回答が流暢かどうかではありません。

その回答が、どの論文やガイドラインに基づいているのかを確認できることです。

OpenEvidenceのようなエビデンスベースの生成AIでは、臨床上の疑問に対して、関連するエビデンスをもとに回答を確認できます。

そのため、一般的なチャットAIに比べて、根拠を追いやすい点が大きなメリットです。

ただし、エビデンスベースのAIツールであっても、最終判断をAIに任せるべきではありません。

出力された内容や参照元を確認し、国内の添付文書や診療ガイドラインと照らし合わせたうえで、医師が判断することが重要です。

日本医師会答申から考えるハルシネーション対策と医師の確認プロセス

日本医師会の「AIの臨床利用に関する検討委員会答申」でも、医療AIの活用には、ハルシネーションや誤情報によるリスクがあることが示されています。

つまり、医療AIは便利な一方で、出力をそのまま信じてよいものではない、という前提が必要です。

たとえば、AIが提示した診断候補や治療方針については、参照元となる文献、診療ガイドライン、添付文書などを確認し、国内の臨床環境に合っているかを判断する必要があります。

厚生労働省の「人工知能（AI）を用いた診断・治療支援を行うプログラムの利用について」でも、AIは診断や治療を行う主体ではなく、最終的な判断の責任は医師が負うとされています。

したがって、医療現場で生成AIを使う場合は、AIを「判断する存在」としてではなく、「医師の確認を前提とした補助ツール」として扱うことが大切です。

ハルシネーションを完全にゼロにすることは難しいため、AIが間違える可能性を前提に、医師が確認し、根拠をたどり、必要に応じて修正できるプロセスを整えておくことが重要です。

まとめ：生成AIのハルシネーションに医師はどう向き合う？

最後に、この記事の内容をまとめます。

生成AIは、カルテ作成、文書作成、患者説明、論文検索など、医療現場の業務効率化に役立つ
一方で、生成AIには「もっともらしい嘘」を出すハルシネーションのリスクがある
AIは医学的な正しさではなく、「医療っぽく自然な文章」を作ってしまうことがある
AIの回答が流暢で専門的に見えるほど、人間側も信じやすくなる
汎用生成AIは「優秀な上司」ではなく、「ミスをする部下」として扱うべき
患者さんの個人特定情報は、生成AIに入力しないことが大前提
薬剤情報、診断候補、治療方針、引用文献は、必ず一次情報で確認する
RAGやエビデンスベースAIを使うことで、根拠を確認しやすくなり、ハルシネーション対策につながる
それでも最終判断はAIではなく、医師が責任を持って行う必要がある
医療AIは、丸投げするものではなく、根拠を確認しながら安全に使う補助ツールとして活用する

生成AIは、正しく使えば強力な味方になります。

しかし、確認せずに使えばリスクになります。

なお、医師向けの生成AI活用をより広く整理したい方は、ハブ記事の「臨床で使えるエビデンスベースAIの全体像」もあわせてご覧ください。