医療テキストマイニング【医療文書から医療用語の分離抽出-単語長をパラメータとした新聞社説との相互比較-】

今朝読んだ論文その3。

論文紹介

  • 医療文書から医療用語の分離抽出-単語長をパラメータとした新聞社説との相互比較-
  • 上杉正人 et al.
  • 第26回医療情報学連合大会(2-D-1-3)、2006、日本

背景と目的

医療文書のテキストマイニングは、医療の質向上につながる。だが、テキストマイニングのために用いる辞書(医療用語、専門用語の単語集)は整備も難しく、日々進化するため、作成が非常に困難。

そこで、症例報告と新聞社説のテキストコーパス比較、あるいは用語の特徴に着目して、医療用語を分離・抽出する方法を検討。

方法

抽出候補は、「2文字以上の漢字とその前後に続くカタカナ文字列」。抽出された語句が医療用語であるかどうかの判定は、1名の医療資格者が行う。検討項目は以下の6つ。

  1. 医療用語がどれだけ分離できたか(分離精度)
  2. 一般用語とした単語にどれだけ医療用語が含まれていたか(見落とし)
  3. 社説を3年分から16年分に増やした場合、医療用語の分離の精度は向上したか(データ量の影響)
  4. 単語長と医療用語の含まれる割合
  5. 用語間で文字を比較。最大長で一致する単語の長さをその単語の長さで割り、平均一致単語長(mWL)を求める。(単語の長さと専門性の相関)
  6. 用語間で文字を比較。最大長で一致する文字列の頻度を求め、その単語自身の出現数と単語長で割り平均一致単語頻度(mWF)を求める。(単語の出現頻度と専門性の相関)

結果と考察

テキストコーパスを増やすと、分離精度は増加(84.3%から85.9%に)するが、一方で再現率が低下(98.4%から95.8%に)。テキストコーパスの量はそれほど影響しない。

単語長で見た場合、5文字以上では医療用語が増加。長い単語(5~15文字)では医療用語の割合が90%程度に。

抽出条件でひらがなを落としているため、「うっ血性」→「血性」となるような部分も。ひらがな、あるいは英単語との組み合わせも今後の視野に。

思いつきメモ

形態素解析のソフトは?

細かいことだけど、どんなソフトで形態素解析(単語の分割)を行ったか、興味あり。

辞書に学習機能つけたい…

とてつもなく時間のかかる作業だけど、やっぱり辞書は改訂していきたい。できることなら、学習機能を取り入れて辞書が進化するような方向で…。