順天堂大学総合診療科学講座の研究グループはこのほど、ChatGPTのカスタムGPTで構築した生成AI模擬患者と医学生・研修医・指導医の医療面接の会話記録を用い、生成AI(GPT-o1 Pro/GPT-5 Pro)による自動採点と臨床指導医5人の採点を比較する妥当性検証を実施した。その結果、AI採点は人間採点と高い一致を示し、平均得点差も小さいことを確認した。また、AI採点により評価時間を約6割短縮し、繰り返し採点の安定性も高いことから、AIが一次採点を行い教員が確認する評価モデルによる面接教育の省力化とスケールの可能性を提示した。
同研究グループは、ChatGPTのカスタムGPTで構築した生成AI模擬患者(27歳男性の下肢筋力低下症例)との医療面接を、医学生2人、研修医3人、指導医2人の計7人が実施し、会話ログから自動生成された文字起こしデータ(手作業による修正なし)を評価対象とした。
面接評価には、患者中心の医療面接コミュニケーション能力を評価する25項目・合計125点の評価尺度を用い、臨床指導医5人が独立して採点した平均値を人間評価としました。
一方、生成AI(GPT-o1 Pro、GPT-5 Pro)は、各会話記録を同一の指示条件で5回ずつ採点し、人間評価との一致度および採点の安定性、すなわち同じ記録を繰り返し評価した際のぶれの小ささを検証した。
その結果、平均得点は人間評価の53.7点に対し、AIは52.1点および53.2点と近い値を示し、得点の推移も良好に一致した(相関係数0.87~0.90)。また、AIと人間の点数差は平均0.43点(差の範囲−4.87~5.72)および1.54点(−8.60~11.68)で、大きな偏りは認められなかった。
採点時間については、人間が1件あたり平均10分16秒を要したのに対し、AIは4分19秒(58%短縮)および3分20秒(67.6%短縮)で、繰り返し採点時のばらつきも人間より小さい結果となった。なお、人間評価には評価者間のばらつきがみられたが、複数名で平均化することにより安定性が高まる性質も確認された。
この成果から、AIが一次評価を担い、教員が要所を確認する運用モデルによって、評価負担を軽減しながら、迅速かつ標準化されたフィードバックを拡大できる可能性が示された。
課題としては、医療面接において本来、人間同士の対話を通じて培われる能力のうち、どの要素までをAI模擬患者との対話によって十分に育成できるのかを明らかにすることが挙げられる。具体的には、主訴、現病歴、既往歴など、問診の基本的な型の習得については、AI模擬患者との反復対話によって強化できる可能性がある。
同研究グループは今後、学習者のレベルや症例の種類に応じて、AIが担える訓練領域と、教員や実患者との学習が不可欠な領域とを切り分けながら検証を進めていき、最終的には、面接技能の底上げを通じて、医師―患者関係の質の向上と、安心して相談できる医療の実現にを目指していく。
「医療機器・化粧品」の記事に関するご意見・お問合せは下記へ。
担当者:河辺
E-mail:kawabe_s@yakuji.co.jp
TEL:03-3866-8499















