医療テキストマイニング【医療文書から医療用語の分離抽出-単語長をパラメータとした新聞社説との相互比較-】
今朝読んだ論文その3。
論文紹介
- 医療文書から医療用語の分離抽出-単語長をパラメータとした新聞社説との相互比較-
- 上杉正人 et al.
- 第26回医療情報学連合大会(2-D-1-3)、2006、日本
背景と目的
医療文書のテキストマイニングは、医療の質向上につながる。だが、テキストマイニングのために用いる辞書(医療用語、専門用語の単語集)は整備も難しく、日々進化するため、作成が非常に困難。
そこで、症例報告と新聞社説のテキストコーパス比較、あるいは用語の特徴に着目して、医療用語を分離・抽出する方法を検討。
方法
抽出候補は、「2文字以上の漢字とその前後に続くカタカナ文字列」。抽出された語句が医療用語であるかどうかの判定は、1名の医療資格者が行う。検討項目は以下の6つ。
- 医療用語がどれだけ分離できたか(分離精度)
- 一般用語とした単語にどれだけ医療用語が含まれていたか(見落とし)
- 社説を3年分から16年分に増やした場合、医療用語の分離の精度は向上したか(データ量の影響)
- 単語長と医療用語の含まれる割合
- 用語間で文字を比較。最大長で一致する単語の長さをその単語の長さで割り、平均一致単語長(mWL)を求める。(単語の長さと専門性の相関)
- 用語間で文字を比較。最大長で一致する文字列の頻度を求め、その単語自身の出現数と単語長で割り平均一致単語頻度(mWF)を求める。(単語の出現頻度と専門性の相関)
結果と考察
テキストコーパスを増やすと、分離精度は増加(84.3%から85.9%に)するが、一方で再現率が低下(98.4%から95.8%に)。テキストコーパスの量はそれほど影響しない。
単語長で見た場合、5文字以上では医療用語が増加。長い単語(5~15文字)では医療用語の割合が90%程度に。
抽出条件でひらがなを落としているため、「うっ血性」→「血性」となるような部分も。ひらがな、あるいは英単語との組み合わせも今後の視野に。
思いつきメモ
形態素解析のソフトは?
細かいことだけど、どんなソフトで形態素解析(単語の分割)を行ったか、興味あり。
辞書に学習機能つけたい…
とてつもなく時間のかかる作業だけど、やっぱり辞書は改訂していきたい。できることなら、学習機能を取り入れて辞書が進化するような方向で…。
ディスカッション
コメント一覧
私の論文を取り上げていただきありがとうございます。この論文のきっかけは形態素解析ソフトウェアでは医学文書の中にたくさんの未知語が出現されるため、形態素解析によらない方法を考える上で、基礎の基礎を研究してみました。したがって、形態素解析ソフトウェアは使っていません。現在は統計量を用いて用語を抽出するアルゴリズムを開発中です。将来的には新しい用語の出現を自動抽出するソフトの開発と抽出した用語と既存用語との関連を見るソフトウェア開発予定です。
コメントありがとうございます!
≫ 上杉さん
直接のコメント、ありがとうございます。
>形態素解析ソフトウェアでは医学文書の中にたくさんの未知語が出現されるため、形態素解析によらない方法を考える上で、基礎の基礎を研究してみました。
なるほど、形態素解析に頼らないテキストマイニング手法の開発、というわけですね。今後の研究・発展にも興味あります。これからもよろしくお願いします。
こんな医学用語辞書あったのです。
英英(関連図が出る):
http://www.curehunter.com/public/dictionary.do
和英英和:
http://yakugo.com