PMDAシンポジウム「生成AIの医療活用の最前線」が6日13時15分から約3時間半、東京・西新橋の日本酒造虎ノ門ビル11階AP虎ノ門での対面とオンラインのハイブリッド形式で開催された。演者は、国立がん研究センター研究所主任研究員/国立情報学研究所特任准教授の小林和馬氏、名古屋大学大学院情報学研究科/名古屋大学情報基盤センター/国立情報学研究所医療ビッグデータ研究センターの森健策氏、医薬品医療機器総合機構(PMDA)プログラム医療機器審査部主任専門員(審査相談担当)の加藤健太郎氏の3人。
小林氏は、「生成AIは医療現場でどこまで活用されているのか?!」と題して主にAIを使う医師の立場から講演。この中で、ChatGPTではなく、自治医科大学の永井良三学長がプログラムディレクターを務めて構築したSIP(統合型ヘルスケアシステム)で、「日本の医療に特化したソブリンLLM(Large Language Models:大規模言語モデル)」であるというLLMについて、「LLMを用いた医師は、LLMを用いなかった医師と比べて、複雑な臨床シナリオにおける診断スコアが優位に向上した」という研究をまず紹介した。
一方で、「医師がAIの出力結果を鵜呑みにし、知的な判断を依存してしまうことによって、主体的に思考する能力を喪失してしまうような長期的リスクもあり得る。実際に医療分野においても、医療従事者のスキルの低下、デスキリングが報告されるようになってきた」と述べた。また、生成AIの問題点は「ハルシネーション、つまり、もっともらしい嘘の情報を生成してしまうこと」と指摘し、「医療LLMの出力を鵜呑みにしてよいかどうかの判断には極めて慎重にならざるを得ない」との見方を示した。
また、ハルシネーション等の問題に関連して「Do NOT Trust Doctor LLM」を強調し、「医療というハイリスク領域におけるELSI(倫理的・法的・社会的課題)を踏まえたLLMの適切な設計と運用が求められている」とし、最後に思想家イヴァン・イリイチの考え方を引用し「ちょうどいい道具としてのAIを作ろう」と締めくくった。
森氏は「画像診断と治療支援分野における生成AIの最前線」と題して工学系研究者の立場から主に技術的な内容を講演した。生成AIを用いたSaMD(Software as a Medical Device)として、「診断結果を文章として出力するSaMD」や「治療方法を自動的に見いだすSaMD」を挙げながらも、「(生成AIを用いたSaMDの)きちんとした定義はないと思う」とし、さらに「医療情報や病院経営などの方まで行くと、それはSaMDというよりもむしろツールとなって、おそらくPMDAの承認審査の対象外になってくると思う」と述べた。
一方で、医療機器としてのSaMD審査のポイントについては、「ハルシネーション対策をどうするかということが生成AIによるSaMDの議論のポイントになってくると思う」と述べた。また、生成AIが作り出す文章の評価について、「明日雨が降るので傘を持っていくとよいです」と「明日は雨なので傘を持っていきましょう」をBLEU(Bilingual Evaluation Understudy)スコアで評価すると0.3763となり、ほぼ同じ意味でも評価が低くなるが、「右肺上葉に結節影が認められます」と「左肺上葉に結節影が認められます」では左と右を間違えるという致命的誤りにもかかわらず、1字の違いだけなので、BLEUスコアは0.9254と高くなるとの問題点を指摘した。
最後に、これからはAI対AIの質問と回答の繰り返しによって「より深い議論レポートというものが作られるようになってくると思う。ただ、これをどうやって臨床まで持って行くのかは議論の余地がある」と締めくくった。
加藤氏は、「生成AI活用医療機器は承認審査をどう変えるか!?」と題して審査側の立場で講演した。
加藤氏は、PMDAでは生成AIを活用した医療機器を審査した経験はほぼないので、そうしたものが医療機器に該当した場合に、従来の審査経験に基づくと、どのような特殊性があるかを考察する、個人的な見解をかなり含んだ内容であると前置きしつつ、「臨床導入を想定するケースが現実可能な範囲で想定できれば、従来の審査方針の応用は比較的容易」であると述べた。しかし、「使用者からの自然文や音声による様々な入力に応じて、特定のタスクによらない多様な回答や創造的なコンテンツを生成する生成AIを活用したもの」は、入力情報の多様性が膨大、使用者の使い方の影響が大きい、製品状態の固定が困難などの点で「いままでやってきたような有用性や性能、ハザード、リスクコントロールといった部分がかなり難しくなる」と述べた。
具体的な評価上の課題としては、「運用経験に基づく学習性」、「動的参照性」、「データバイアス」、「出力の非決定性」、「生成コンテンツに対する要解釈性」の5点を挙げた。学習性というのは、変わり続ける製品の有効性や安全性をどう確認するかといった課題、参照性は、参照情報が変化するために、同じ入力をしても評価時点により出力が変化するといった課題、データバイアスは、バイアスの特定などが今まで以上に困難になるという課題、出力の非決定性は、ある入力に対して1回の出力だけを評価しても、製品全体の出力を評価できるわけではないという課題、要解釈性とは、自然文などの生成コンテンツにおける意味内容をどう評価するかという課題だとしている。
一方、使用上の課題としては、ハルシネーションに気づけない場合があること、医師とAIが食い違った場合にAIを信じる「自動化バイアス」又は「アルゴリズム権威」が起こることなどを挙げた。
その上で、「今の審査のイメージとしては、基本的に市販前の充実した評価が前提となっていると思うが、市販前はある程度現実的な、限定的な評価をして、市販後の管理、監視というものを充実させていくトータルライフサイクルアプローチという評価が重要になってくるのではないか。それが現実的な解になるんじゃないかと思う」と述べた。ただし、この考えは「完全に私見」であり、「審査経験に基づくただのアイデア」であり、「もっと合理的な考えや、こういうことができるはずだみたいなものがあると思うので、開発者の方、先生方、よりよい開発環境実現のためにぜひお知恵を貸していただきたい」と結んだ。
講演の後、厚生労働省医薬局医療機器審査管理課課長の野村由美子氏とPMDA執行役員(機器審査等部門担当)の石井健介氏をモデレータにパネルディスカッションが行われた。
PMDAのSaMD関連のシンポジウムは今回で3回目となるが、今回が一番の参加者だったという。それだけSaMDに対する関心が高いということか。石井氏は、シンポジウムの閉会にあたり、「今日我々PMDAも、これからの生成AIの審査に関していろいろな気づきをいただけたと感謝している」と述べた。
余談だが、小林氏は講演最後にイヴァン・イリイチ(1926~2002)の考え方を参照している。イリイチを参照する人は珍しいような気がする。イリイチは、オルターナティブズや脱学校、脱病院、ジェンダー、シャドウワークなどで知られる。
「医療機器・化粧品」の記事に関するご意見・お問合せは下記へ。
担当者:河辺
E-mail:kawabe_s@yakuji.co.jp
TEL:03-3866-8499

















