セミナーレポート(富士フイルム)

2019年11月21日(木)〜24日(日)に幕張メッセ(千葉県千葉市)で開催された第39回医療情報学連合大会において,富士フイルムメディカル株式会社共催のランチョンセミナー11が行われた。「富士フイルムグループが考える『読影レポートシステム』の未来〜『自然言語処理技術』と『医療画像認識技術』とのシナジー〜」をテーマに,2名の演者が講演した。

2020年3月号

第39回医療情報学連合大会ランチョンセミナー11 富士フイルムグループが考える「読影レポートシステム」の未来〜「自然言語処理技術」と「医療画像認識技術」とのシナジー〜

富士ゼロックスにおける医療言語処理の取り組み~言語情報の構造化からテキスト自動生成まで~

大熊 智子(富士ゼロックス株式会社研究技術開発本部コミュニケーション技術研究所)

大熊 智子(富士ゼロックス株式会社研究技術開発本部コミュニケーション技術研究所)

本講演では,富士ゼロックスがこれまで取り組んできた医療言語処理の研究のうち,主に退院時サマリを対象にしたテキスト構造化と,読影レポートを対象にしたテキスト自動生成技術について概説する。

退院時サマリを対象にしたテキスト構造化

1.テキスト構造化システムの概要
テキスト構造化システムでは,まず退院時サマリを形態素解析という単語に区切る処理で分解する。次に,機械学習手法のうち系列処理に強いConditional Random Fields(CRF)を用いて,病名や部位,医薬品名などの医療用語を抽出する。それらの用語をルールに則って二元表にし(表構造化),テキストの退院時サマリの一覧性を高めて患者の状態をひと目でわかりやすく表示する(図1)。

図1 退院時サマリの表構造化

図1 退院時サマリの表構造化

 

本研究はその後,さらに発展して,医薬品の副作用出現調査の支援(製造販売後調査)や,疫学・創薬などの研究支援などにも用いられている。なかでも,医薬品の副作用出現調査の支援においては,CRFによる医療用語の抽出後に副作用関係抽出を行い,医薬品とその後に現れる症状名との間の副作用関係の有無を判定する処理を行う。さらに,医薬品や副作用表現の表記ゆれを解消して正規化し,副作用表現結果を表示する。得られた結果は二元表にまとめ,医薬品ごとに副作用の症状や発生件数を集計して可視化することができる(図2)。

図2 直交表表示の例

図2 直交表表示の例

 

2.CRFによる用語抽出           
自然言語処理による用語抽出は,かなり高い精度が得られるようになっており,一部実用化もされている。5年ほど前のデータでも,医薬品や検査値などにおけるCRFによる固有表現抽出の精度は,部分一致で9割前後であり,現在は人工知能(AI)の手法の一つであるdeep learningを用いることで,さらに精度が向上している。

3.副作用関係抽出
図1のような表形式の可視化システムの問題点として,医薬品名と症状名との関係性について,薬効を期待して医薬品を投与したのか,逆に,医薬品によってその症状(副作用)が起こったのかという情報が失われてしまうことが挙げられる。そこで,文中から副作用を抽出することを研究の目的とした。
退院時サマリの解析が困難な理由は,文中に“副作用”と明記されていないことが多いためである。そこで,機械学習手法であるsupport vector machine(SVM)による2値分類を用いて,1文中に含まれる医薬品名と症状名との間に副作用関係が成立するかどうかで間接的に判断することとした。なお,関係抽出の精度は,現状ではまだ6割に満たない状況である。その理由は,前述のとおり文中に“副作用”と明記されないことに加え,医薬品では薬効が9割であるのに対して副作用は1割に満たず,SVMの学習量に偏りが出て,2値分類で精度良く判別するのがきわめて困難なためである。

4.医薬品名の正規化
医薬品名の正規化は,副作用を抽出後に,副作用出現状況を統計的に判断するために必要である。これについては辞書の機能を用いて解決した。医薬品名は,薬効成分と一致しないことが往々にしてあり,また,成分量の違いによって医薬品名が異なることもある。そこで,医薬品名に対して人手で一般名を付与し,一般名と薬効分類をSVMを使った表記ゆれ解消モジュールによって一致させた。

5.副作用表現の正規化
副作用表現の正規化に当たり,日本国内では“MedDRA/J”(ICH国際医薬用語集日本語版)の使用が推奨されている。MedDRAは,日米医薬品規制ハーモナイゼーション国際会議(ICH)が開発した標準化された医学用語集で,SOC(器官別大分類)〜LLT(下層語)までの5つの階層を持つ。ただし,実際の退院時サマリにはMedDRA/Jに含まれない副作用表現が多くあるため,LLTの同義語を獲得しMedDRA/Jを拡張した。具体的には,医薬品の添付文書の副作用の項目からMedDRA/JのLLTにない用語を抽出し,表記ゆれモジュールの学習セットに追加した。また,ひらがな表記を漢字表記に関連づけるなども行った。

読影レポートを対象にしたテキスト自動生成

1.キャッチコピー自動生成
富士ゼロックスでは,ドキュメントにかかわる研究の一つとして,キャッチコピー自動生成の研究を行っている。これは,自然言語処理における“data to text”という分野の研究の一つで,対象の特徴を表すデータとキャッチコピーのペアを多数用意し,deep learningで傾向を学習させた。その結果,例えば“りんご”の商品情報を学習させて“みかん”のキャッチコピーを一度に多数生成するといったことが,最近では容易となっている。

2.読影レポートの自動生成
富士フイルムでは,読影ワークフロー支援をめざし,読影レポートに記載する所見文を自動生成する技術開発に取り組んでいる。これまでの活動で得られた医療データや診断学に基づく深い知見に,富士ゼロックスの自然言語処理技術を融合させることを目的として,2019年から共同研究が開始された。まず医用画像で病変の特定や解析などを行い,その結果を所見ラベルとして出力する。これをテキスト生成システムに入力すると,自然言語処理のdeep learningによって読影レポートを自動的に生成するという仕組みである(図3)。

図3 読影レポート生成システムの構成

図3 読影レポート生成システムの構成

 

deep learningに基づくテキスト生成の課題として,流暢性と適切性の低さが挙げられる。流暢性の低さとはテキストの不自然さであり,同一表現の繰り返しが多いことなどが指摘されている。また,適切性の低さは正しい表現が生成されないことで,正否が入れ替わるといった適合率の問題や,必要な情報が抜けるといった再現率の低下が課題となる。
流暢性の低さへの対策には,deep learningによるモデル学習の仕組みにteacher forcingと呼ばれる手法を適用している。deep learningによるレポート生成では,例えば画像認識の結果,「結節あり」などのデータをエンコーダである再帰ニューラルネットワークに入力すると,デコーダ部分で単語が出力され,この出力された単語が次の入力となることでテキストが次々と生成される(AI出力)。この時,医師が作成した正解レポートを教師として,生成されたテキストとの誤差(字面の違い)が少なくなるようニューラルネットワークモデルを修正することで,正解レポートとAI出力との差を少なくしていく。ただし,この方法では一度生成誤りが起こると,次の入力が誤った語になり,誤りの連鎖が起こってしまうが,teacher forcingでは,学習フェーズで正解レポートから入力を持ってくることで誤りが連鎖せず,流暢性を担保している(図4)。

図4 流暢性の低さへの対策:teacher forcing

図4 流暢性の低さへの対策:teacher forcing

 

一方,適切性の低さの要因は,学習の仕組みと関係がある。前述のように,字面の違いを少なくするよう学習させると,内容は一致していても表現が異なれば誤りと判断されてしまう。現時点では内容の一致を直接評価できないため,擬似的に判断するためにリコンストラクションという手法を用いている。これは,所見ラベルを出力後にもう一度推定所見ラベルを出力し,そこからもともとの所見ラベルを推定する機構である(図5)。これにより,出力されたものが,もともとの入力の内容をどの程度担保しているかを擬似的に判断し,間接的にどの程度内容が一致するかを学習可能となる。上記のような対策を実施後,正解レポートと同等のレポートが生成できていることが,実例で確認できた(図6)。

図5 適切性の低さへの対策:内容一致度で学習

図5 適切性の低さへの対策:内容一致度で学習

 

図6 改善されたレポート生成例

図6 改善されたレポート生成例

 

まとめ

テキスト自動生成は,deep learningによって急速に進歩を遂げた技術の一つである。今後も,読影レポート生成の性能向上に取り組んでいく。

 

●そのほかのセミナーレポートはこちら(インナビ・アーカイブへ)

【関連コンテンツ】
TOP