ex_mecab.plのオプションを変化させて結果を見る(2)
次は重要度計算になります。
重要度計算で、「ドキュメント中の用語の頻度」と「連接語の重要度」
のどちらに比重をおくかを設定する。
値が大きいほど「ドキュメント中の用語の頻度」の比重が高まる
6.設定値0.1(連接後の重要度高)
デフォルト値は1です。
少し順位が入れ替わってるかぐらいにしか見えませんかね。
7.設定値0.5(ドキュメント中の用語の頻度と連接語の重要度の中間)
当たり前ですが、違いが減りましたね。
8.学習機能
とは言え、
# 前回読み込んだ「形態素解析」済みテキストファイルを元に
# モードを変えて、専門用語リストを配列に返す
の部分です。学習機能をオンにしておかないと機能しないからです。
事前準備で
$data->use_stat; # 学習機能を使う
と
# 学習機能用DBにデータを蓄積するかどうか選択
$data->use_storage; # 蓄積する
の2つを有効にしおいて一度出力させて"stat.db"と"comb.db"を出力させてから
実行します。
これ31個にまとまっていい感じです!
難しい
どの設定が良いのかというのは難しいです。
となれば、デフォルトでも良いような気がしてきます・・・。
気になるキーワードが幾つかありました。
くに静岡
・・・ふじのくに静岡県がそのように分解されてしまっているようです。
アメリカ海軍
・・・イージス艦の事故の件でヒットしてしまっているようです。
らんnet
・・・じゃらんnetが分解されてしまっています。
公式ホームページふじ
・・・静岡県公式ホームページ ふじのくに総合トップページ
やはりどうしても変なところで切れたりするようですね。
もしかするとmecabの辞書に何かを追加したりすると良いのですかね??
試してみたいと思います。
ディスカッション
コメント一覧
まだ、コメントがありません