AI翻訳を開発業務へ積極応用‐MSDグローバル研究開発本部 木下 潔氏に聞く
正確さと迅速化に寄与
MSDは、日本の製薬業界の中で、2016年に登場したグーグル翻訳以降のいわゆる「ニューラル機械翻訳(NMT)」(AI翻訳)の医薬品研究開発業務への応用に先進的に取り組んできた。グローバル企業の一員として、共通言語である英語の文書を大量に扱う中で、日々、正確かつ迅速に医薬品、ワクチンに関する最新情報を日本の医療施設や当局に提供し続けることを迫られている。また、同社は、情報通信研究機構(NICT)が世界の大手製薬企業8社と共同で行った製薬業界向けAI自動翻訳システムの最適化プロジェクトに参画した1社でもある。翻訳業務へのスタンスについてグローバル研究開発本部薬事領域非臨床開発部の木下潔フェロー(薬学博士)に聞いた。
――MSDにおける翻訳業務における役割は。
私たちはグローバル企業であり、共通言語は英語。日々米国本社とのやりとりが必要であり、日本向けには当然英語から日本語に、米国本社向けには日本語から英語に翻訳しなければならない。
例えば非臨床開発部だと、海外の研究所で得られた試験成績など専門的な情報を、日本当局の専門家に丁寧かつ正確に伝えるなど、両者をつなぐ役割を担っている。研究開発は、日本だけではなくグローバルで行われており、最終的にはそれらのデータをまとめて日本の当局に申請する。
有害事象なら、日本で起きた事象について米国本社にも報告が必要。品質関係でも、製造方法、原材料を少しでも変更する際には、翻訳作業が必要になる。
――特に製薬業界における翻訳に求められていることは。
製薬企業として、私たちが扱う情報の翻訳は、正確かつ迅速に、規制に合った表現でなければならない。
つまり、正確さ、早さ、費用の妥当性が重要だ。命に関わる情報を扱っているので、間違いは許されない。早く研究開発を進めて、1日でも早く患者さんの手元に新薬やワクチンをお届けする。そして適正に使うための情報を提供するまでのプロセスを効率的に行う必要がある。
何よりも翻訳の品質が大切。間違いだけでなく、誤解を生むような表現もあってはならない。製薬業界、そして各社で規定された言い回しもある。AI翻訳は的確に訳されていないことがあり、必ず人が徹底的にレビュー、チェックをする。
――全ての翻訳を外部に委託しているのか。
ざっくり言うと重厚長大型の文書は外部に委託し、軽薄短小型の文書は社内で行っている。
軽薄短小型の例としては当局からの照会。日本と海外の当局への回答に齟齬があってはいけないし、結構なスピードが要求される。このため、日本の当局から照会があると、英語に翻訳して米国本社に送り、すぐに打ち合わせを行う。そこはNMTが威力を発揮する。
他方、重厚長大型の文書とは、例えば、承認申請文書(CTD=コモンテクニカルドキュメント)、治験薬概要書(IB)などで、量は膨大だが、ある程度時間が読めるので、ゴールから逆算して翻訳企業に依頼する。もちろん、訳出された文書は、社内で見直す十分な時間も織り込んでいる。
――効率化に果たすNMTの役割は。
NMTが出る以前は、社内での人海戦術だった。16年のグーグル翻訳登場により翻訳が格段にレベルアップしたのを見て、このような機能を社内に導入して使いたいと思った。そこで、展示会などにも出向いて、代理店と安全な環境で使うにはどうしたら良いか話し、サポートしてくれるところを探して、18年初めには機密情報も扱える社内独自のAI翻訳を採り入れた。おそらく業界でトップクラスの早さだったのではないかと思う。
このNMTの導入により圧倒的に社内での翻訳の効率化がなされたと思う。先ほど重厚長大型と軽薄短小型と分けて話したが、実はその中間くらいの文書も多い。翻訳企業に出すほどではないが、自分で翻訳するには非効率的という量の文書で、ボリュームによっては数時間かかるものが、AI翻訳にかけると、ものの数分でできる。それまで何時間もかけて翻訳していたプロセスとそれによるストレスがなくなったことは大きい。
――しかし、AI翻訳は業界向けに用語に対応させるカスタマイズが必要だ。
その通りで、最初は汎用のシステムを使っていた。業界特有の用語や言い回しは考慮してくれない。そこで自分たちが用いる用語を辞書に登録して使ったが、医薬翻訳に特化しているという水準にはならなかった。
当時はAI翻訳の精度は、AIのアルゴリズムの最適化、学習させる日英対訳コーパス(対訳データ)の量と質によって決まるとされた。
そこで製薬業界で使用される文書の対訳コーパスを大量に学習させることで、より実用性の高い翻訳文を生成できる「製薬系AI翻訳エンジン」開発に向け、製薬8社が集まって共同研究が行われた(NICTの製薬業界向けAI自動翻訳システム最適化プロジェクト)。私たちもそのうちの一社として19年に参画した。
私たちからも、IBやCTDの一部、それに医学事典として無償公開している「MSDマニュアル」の日英対訳データを提供させていただいた。8社から提供されたデータは320万文対以上に上り、19年に日英対訳データを用いたシステムの最適化が完了した。
翻訳の精度は高まったが、実は8社それぞれ言い回しが異なるので、自社用の言い回しを覚えさせた。21年から弊社仕様にアップデートした。
翻訳企業とは二人三脚‐生成AIの活用注視
――成果は。
人海戦術で翻訳を行っていた時は人によってレベルが様々だったので、修正し直す方が、時間がかかったりすることもあったが、その手間が一切なくなった。ただ、AI翻訳も、勝手な解釈をして翻訳してくるケースが散見された。今となっては稀だが、本来の薬剤名が別の薬剤名に置き換わっていたり、○○作用薬の話をしているのに、別の作用の説明になっていたりすることがある。人によるチェック、ポストエディットは必須だ。
一文章が長い行政文書はそのままでは上手に訳せないケースがあるのでプレエディットして訳しやすくするなど、AI翻訳を上手に使う上で注意すべきことは徹底的に社内で研修した。
――翻訳企業に効率良く、良い翻訳をしてもらうための工夫は。
AI翻訳の登場で、翻訳企業への依頼がなくなるということには決してならない。重厚長大型の文書の翻訳は、私たちだけではできないので、翻訳企業としっかりタイアップして、翻訳していただかないと、私たちの業務は回らなくなり、研究開発全体の効率が悪くなる。その点は強調しておきたい。
実は翻訳の品質水準については、あまり話はしないというか、当然一定の質の翻訳をしていただいているという認識でいる。付き合いが長いゆえかもしれないが、これまでも一緒にトレーニングを行うなど、MSDのスタイルを理解していただいて、社内と同じレベルで翻訳していただいている。
翻訳企業による翻訳レベルは高い。私たち企業側としては、外部委託する際の手続きや仕組みを効率的にできるよう環境を整えている。
――今後の翻訳への期待は。
私個人の考えだが、AI翻訳+生成AIの良いとこ取りをした文書作成システムのようなものがあれば理想的だ。もし、翻訳会社の中で、そういうシステム開発に取り組まれているところがあるのなら、非常に興味を持っている。