自然言語解析

一番"重い"日記はどれ?

連日日記からキーワードを抜きだしているわけですが、ふと疑問に思ったことを実験してみました。疑問というのは『良く使われる語が、良く使われる日はいつ?』ということです。とりあえず、一番シンプルだと思われる方法で計算してみました。計算方法は以下の…

複合語抽出

複合語の抽出というのはid:kt-blackout:20040324でも書いたように、キーワード抽出において重要な意味を持ちます。複合語というのはわりと専門的な用語であったり、日常会話などで出にくい言葉であることが多いので、単純に複合語を抜きだすだけでも面白い結…

複合語抽出 2

↓に書いた『複合語抽出』で使用したプログラムが微妙にバグっていました。それによりすべての出現回数がちょうど2倍になってしまったようです(ですので、相対的な順位は変りません)。修正しました。この修正の際に少しアルゴリズムの調整したら、結果が少し…

小説のキーワード

結論から言えば小説からキーワードを抜きだすことに無理があるんだろうな。そもそもキーワードをいくつか抽出してその小説の雰囲気や内容がつかめるわけがない。同じ理由で雑記的な日記も難しそう。実験的に夏目漱石の『我が輩は猫である』の複合語を抽出し…