キーワードの選別

先日、複合語の出現回数を数えて、多い順に並べてみました。その結果の上位10個は以下のようになりました。(全リストはこちら http://members.jcom.home.ne.jp/j-klein/text/jklein/hukugou-list.txt

脆弱性, お勧め, オーバーフロー, 暗号化, ユーザ名,
文字コード, 基本的, プロキシ, 管理者, 解析結果

これでも良いのですが、いくつか問題があります。

  1. 上位何個をキーワードとするかが明確でない
  2. 頻繁に出現する重要でない語が上位に来る(例:『ユーザ名』)
  3. どうとでも取れる語が現われやすい(例:『お推め』『基本的』)
  4. 必ずしも重要な語が上位にくるとは限らない

出現回数のみを抽出要因として使用することにそろそろ限界を感じるものの、もう一押しすることを考えてみました。正確な閾値を決める為には大量の文章の解析をするしかありませんが、ここでは独断と偏見で決めてみました。

d : 距離
L : 取りだす箇数
M : 総キーワード数
c : キーワードの出現回数
s : 同出現回数であるキーワードの数



三角形の斜辺を求めているわけです。そして、距離dが小さいものから順番L個取りだします。恐らく下のグラフを見ていただければ意味が分かりやすいと思います(画像クリックで大きなグラフが見れます)。

そして、取りだしたキーワード49個は以下のようになりました。

オープンソース, 設定ファイル, 診断室, 解説書, 
鍵配送, 危険性, 劣化ウラン, バックドア, 人分, 
ソース倉庫, 使用方法, Д⊂, 複合化, 暗号技術, 
クローン, 時系列, 数学的, 問題点, 最終定理, 現実的, 
テキスト形式, 送信元, 検索エンジン, サンタ追跡, 
高林哲, 利用法, 携帯電話, ウラン弾, 被害者, シェルコード, 
犠牲者, 出現回数, 匿名報道, 言語入門, ノートパソコン, 
郵便局, パーミッション, 個人情報, アクセス解析, 
暗証番号, 化通信, プログラミング診断, 入門書, 生体認証, 
文字列, 攻撃者, 全体的, さそう, 量子暗号, 推薦図書, 

ちなみに、これは上位49個を抜きだしたのではなく、プログラムによって導き出された49個です。つまり、複合語の数が2401個あるってだけなんですけどね。


少しは良くなったような、そうでもないような、複雑な心境です。そろそろカテゴリ毎にわけて考えるようにしないと無理があるなぁ。

蛇足ですが、わざわざ趙簡単な式をTeX記法で載せたのは、『やってみたかった』だけです。はてな標準でmimeTeXが組みこまれているわけですし、なんとなくかっこいいような…。