キーワード抽出
さて、「茶筅遊び」で書いているように茶筅で遊び回っているわけですが、いつまでも遊んでいるわけにもいきません。とりあえずの目標である「キーワードの抽出」を中心に考えてみました。以下、キーワード(重要語)を抜き出す上で漠然と思ったことメモしておきます。
- 『出現回数が多い=重要』ではない
- 出現回数を観察しているとわりと上位に重要語が集中するものの、やはり散漫です。出現回数が多い語を抽出するというよりも、出現回数が低い語を排除するという考え方の方が良いかもしれません。
- 複合語は重要
- 例えば『形態素解析』『構文解析』『意味解析』という語があるとします。この時恐らく上位に『解析』がくると思われますが、『形態素』『構文』『意味』という語も上位に来てほしいものです。つまり上位に来た語とよく複合される語も重要であるといえます。これに関してはこれからもっと調べるつもりですが、技術系サイトにはかなりあてはまると思われます。
- 日記間比較
- 日記特有の話になりますが、こういうことは有効かもしれません。『一ヶ月前の日記と今日の日記を比べて、両方で上位にくる語は一般的な語であり、その日の日記を表す語にならない』ということです。例えば私の日記の上位を見ると『ファイル』や『本』が常に上位にいます。しかし、”特定の日”の日記の特徴を見る上ではノイズになります。これは比較によって排除できるのではないでしょうか。
- 位置情報
- 特にWebの特性を生かして『タイトル』や『引用文』『定義分』『リスト』等に重みをかけるということです。Webを対象にする場合は当然の処理になるでしょう。
やることが溜まってきた…。
【追記】
とても面白いものを発見した。
シソーラス検索:http://www.gengokk.co.jp/thesaurus/
このページの上の方にあるフィールドに適当な語を入力して実行すると、関連語、反語、広義語、狭義語、などが抽出される。欲しい…。