インターシステムズ,自然言語解析技術 InterSystems iKnow 日本語対応版を発表
〜辞書定義やオントロジーなしに文章から意味あるユニットを抽出する画期的な自然言語解析技術を提供〜
2016-10-28
データ管理,インテグレーション,分析ソフトウェアをグローバルに提供するインターシステムズコーポレーション(以下インターシステムズ)は,10月27日,同社のユニークな自然言語解析技術 InterSystems iKnow® (以下 iKnow)の日本語対応版 『iKnow Japanese』が正式リリースされたことを発表した。iKnowは,データプラットフォーム製品InterSystems Cachéの組み込み技術として提供される。
iKnowは,文章(非構造化データ)を意味のあるデータ項目(構造化データ)に変換することのできる自然言語解析技術。従来,日本語の言語解析は,予め定義した辞書やオントロジーに基づき,文を単語(意味を持つ最小単位)に分割する形態素解析と呼ばれる手法に代表される技術が一般的であった。
iKnow は,文を単語に分割するのではなく,言語構造を基に文章そのものから意味のある一連のユニット(「エンティティ」)を見つけるという「ボトムアップ手法」による解析を行う。そのため,辞書やオントロジーを予め定義する,それらをメンテナンスするといった作業が不要。ユーザーは検索する対象が不明な場合であっても,文章の中から本質を発見することが可能である。iKnowは,文章の中から意味のある最大単位の「エンティティ」を認識し,「エンティティ」同士の関連性を示す近接性(Proximity)や文書内での特定のエンティティの優位性(Dominance)を算出し,非構造化データの内容を理解し活用するための強力な解析技術を提供する。
インターシステムズのアプリケーションパートナーであるデータキューブ(株)は,InterSystems Caché(キャシェ)を基盤とした同社の臨床データ分析システム」「medCube(メディカルキューブ)」に iKnowを使いフリーテキスト検索・解析機能を加えて,アプリケーションの拡張を行っている。同システムは,2017年1月に熊本大学医学部附属病院で試行的活用を開始する予定。
●ユーザー,パートナー企業の評価
iKnow Japaneseは,データキューブを初め複数のインターシステムズのユーザー,パートナー企業が技術検証を行っている。検証を行ったユーザー,パートナー企業は,iKnowについて以下のように述べている。
熊本大学医学部附属病院 医療情報経営企画部 部長
熊本大学大学院 医学教育部 医療情報医学分野 教授 宇宿 功市郎 氏
「診療情報の電子化が行われるようになり約30年近くが経過しており,蓄積された診療情報の二次利用による新たな治療法開発,疾病発症の理解が重要と指摘されています。しかしながら,電子化診療記録の多くの部分はテキスト情報であり,まだまだ構造化が不十分であり,利活用されていない状況があります。今回 iKnowを活用することで,非構造化テキスト情報を構造化し,検査結果情報,処方情報と組み合わせることで,診療の実態をより明らかにし,これまでの治療を解析,医療の質向上につなげ,真に有効な治療法開発にチャレンジできるものと期待しています。」
長崎大学・医歯薬総合研究科 医療情報学 教授
長崎大学病院 医療情報部長 本多 正幸 氏
「当院では医学研究支援にDWHを運用していますが,自然言語データである非構造化データの解析は大きな課題の一つです。この度,iKnowを活用し,フリーテキストである退院時サマリーデータと電子カルテの経過記録に対して,重要度の高いエンティティを抽出しそれらの類似度について解析を行いました。その結果,iKnowは,言い換えや表記の揺れなどの曖昧性を考慮した意味解析・情報抽出の精度向上,関連語などの発見的探索,シーソーラス辞書や用語辞書の蓄積などに大変有用な技術であると考えます。」
京セラ丸善システムインテグレーション(株)
代表取締役社長 松木 憲一 氏
「インターシステムズジャパン株式会社様による『iKnow Japanese』がリリースされたことを,心よりお祝い申し上げます。当社は図書館システムに長くInterSystems Cachéを使用していますが,図書館システムにおいて,同技術の優れたテキスト探索機能が搭載できれば,膨大な書誌データをもとに利用者に対する新たな本との「出会い」を演出し,図書館サービスの新たな付加価値創出に貢献できるものと確信しています。今後も,インターシステムズジャパン株式会社様との,更なる協業を推進して参ります。」
データキューブ(株)
代表取締役 小畑 恭弘 氏
「当社ではこれまでカルテ記事などに対する検索機能を提供してきましたが,形態素解析やN-gramなど従来の方法だけでは文字列を検索することが中心で,自然言語の持つ曖昧さや医療用語などの扱いに改善の余地がありました。iKnowの提供するオープンエンド型の解析により,文章検索機能のみならず,関連性や類似性によってユーザーをナビゲートすることで新たな気づきを与えるなどの発見的なシステムへと発展させ,ユーザーに新たな付加価値を提供できるものと期待しています。」
インターシステムズは,同社のデータプラットフォームを採用しているパートナー向けに,iKnow Japaneseを組み込み,テキスト解析機能を付加してアプリケーションの強化を促進するほか,非構造化データの分析が課題のビッグデータ活用・分析ソリューションに取り組む企業に積極的に販売していく。
<付録:iKnowとその他のツールによる自然言語解析例>
以下に一般的な形態素解析ツールとiKnowによるテキスト解析の例を示す。
【例文1】 敗血症は腎盂腎炎から至ったケースという。
ツールAによる分かち書き: 敗血症/は/腎盂/腎/炎/から/至っ/た/ケース/と/いう/。
ツールBによる分かち書き: 敗血/症/は/腎盂/腎炎/から/至/っ/た/ケース/と/い/う/。
iKnowによる解析結果:
敗血症 は 腎盂腎炎 から 至った ケース という。
iKnowは,細かい単語単位ではなく,意味あるフレーズ「敗血症」「腎盂腎炎」「ケース」を「エンティティ」として抽出し,敗血症 と 腎盂腎炎は何らかの関連があることを事前の定義や知識なく推測する。
【例文2】 今年のノーベル医学・生理学賞の受賞者に,「オートファジー」と呼ばれる仕組みを解明した東京工業大学栄誉教授の大隅良典さんが選ばれました。
ツールAによる分かち書き:
今年/の/ノーベル/医学/・/生理/学/賞/の/受賞/者/に/,/「/オートファジー/」/と/呼ば/れる/仕組み/を/解明/した/東京/工業/大学/栄誉/教授/の/大隅/良/典/さん/が/選ば/れ/ました/。
ツールBによる分かち書き:
今年/の/ノーベル/医学/・/生理学/賞/の/受賞/者/に/,/「/オート/ファジー/」/と/呼ば/れる/仕組み/を/解明/し/た/東京工業大学/栄誉/教授/の/大隅/良典/さん/が/選ば/れ/まし/た/。
iKnowによる解析結果:
今年のノーベル医学・生理学賞の受賞者 に,「 オートファジー 」と呼ばれる 仕組み を解明した 東京工業大学栄誉教授の大隅良典さん が選ばれました。
従来のツールでは,接頭詞,接尾詞などの単位まで細かく分かち書きされ,個々の単語の意味だけではこの文章の話題を理解するのは難しくなる。iKnowは,「今年のノーベル医学・生理学賞の受賞者」「オートファジー」「仕組み」「東京工業大学栄誉教授の大隅良典さん」といった「エンティティ」と呼ばれる意味ある単語クラスターを認識する。個々の単語よりもある程度意味が限定されるため,正確な情報を得やすく,話題そのものがわかりやすくなる。
●問い合わせ先
インターシステムズジャパン(株)
TEL 03-5321-6200
http://InterSystems.com/jp/