ex_mecab.plのオプションを変化させて結果を見る(2)

次は重要度計算になります。

重要度計算で、「ドキュメント中の用語の頻度」と「連接語の重要度」
のどちらに比重をおくかを設定する。
値が大きいほど「ドキュメント中の用語の頻度」の比重が高まる

6.設定値0.1(連接後の重要度高)

デフォルト値は1です。
少し順位が入れ替わってるかぐらいにしか見えませんかね。

 

7.設定値0.5(ドキュメント中の用語の頻度と連接語の重要度の中間)

当たり前ですが、違いが減りましたね。

 

8.学習機能

とは言え、

# 前回読み込んだ「形態素解析」済みテキストファイルを元に
# モードを変えて、専門用語リストを配列に返す

の部分です。学習機能をオンにしておかないと機能しないからです。
事前準備で
$data->use_stat; # 学習機能を使う

# 学習機能用DBにデータを蓄積するかどうか選択
$data->use_storage; # 蓄積する
の2つを有効にしおいて一度出力させて"stat.db"と"comb.db"を出力させてから
実行します。

これ31個にまとまっていい感じです!

 

難しい

どの設定が良いのかというのは難しいです。
となれば、デフォルトでも良いような気がしてきます・・・。

気になるキーワードが幾つかありました。

くに静岡
・・・ふじのくに静岡県がそのように分解されてしまっているようです。

アメリカ海軍
・・・イージス艦の事故の件でヒットしてしまっているようです。

らんnet
・・・じゃらんnetが分解されてしまっています。

公式ホームページふじ
・・・静岡県公式ホームページ ふじのくに総合トップページ

やはりどうしても変なところで切れたりするようですね。

もしかするとmecabの辞書に何かを追加したりすると良いのですかね??

試してみたいと思います。