TermExtractインストールするも、まったく動作しなかった
Mecabだとキーワードが細切れになってしまいます。
名詞と名詞をつなげるというようなカスタマイズもありですが、
自動的につなげてくれるモジュールがあるようです。
専門用語(キーワード)自動抽出システム – TermExtract
インストールは以下を参考にRaspberryPiにインストールしました。
> wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_11.tar.gz
> tar xvzf TermExtract-4_11.tar.gz
> cd TermExtract-4_11
> perl Makefile.PL
> make
> sudo make install
対象テキストはmecabのwikiの文章としました。
まずmecabで解析したテキストをmecab_out.txtに出力して
ex_mecab.pl
を実行すればよいのだと思うが何も表示されない。
というわけでデバッグ実行してみました。
デバッグ
> perl -d ex_mecab.pl
main::(./ex_mecab.pl:15): my $data = new TermExtract::MeCab;
DB n
main::(./ex_mecab.pl:16): my $InputFile = “mecab_out.txt"; # 入力ファイル
DB n
main::(./ex_mecab.pl:20): $SIG{INT} = $SIG{QUIT} = $SIG{TERM} = 'sigexit’;
DB n
main::(./ex_mecab.pl:25): my $output_mode = 1;
DB n
main::(./ex_mecab.pl:100): my @noun_list = $data->get_imp_word($InputFile); # 入力がファイル
DB n
main::(./ex_mecab.pl:112): foreach (@noun_list) {
DB n
Debugged program terminated. Use q to quit or R to restart,
use o inhibit_exit to avoid stopping after program termination,
h q, h R or h o to get additional info.
という感じで終わってしまう。
get_imp_wordを実行しても
@noun_listに何も値が入らないみたい・・・。
eucにしたら動いた
ベースはUTF8で動いているのだけど、何故かEUCじゃないとダメな感じになってしまいました。
というわけで、なんかうまく動かないと思った方は
一旦変換対象をEUCにしてみると動くかもしれません。
結果は以下のような感じです。
ChaSen 4.00
. 3.00
MeCab 3.00
日本語入力 2.91
解析 2.83
[ 2.83
Google日本語入力開発者 2.35
開発者 2.21
開発開始 2.00
– 2.00
解析精度 2.00
]。 2.00
][ 2.00
解析速度 2.00
規模日本語n – gramデータ 1.95
iPhone OS 1.86
品詞情報 1.86
形態素解析エンジン 1.78
Mac OS X v 1.77
Google 1.73
IPA品詞体系 1.70
Googleソフトウェアエンジニア 1.70
工藤拓[ 1.59
奈良先端科学技術大学院大学出身 1.41
オープンソース 1.41
和布蕪 1.41
v 1.41
IPADIC 1.00
推定 1.00
程度 1.00
作成 1.00
Spotlight 1.00
ChaSenTNG 1.00
平均 1.00
好物 1.00
名前 1.00
名称 1.00
スクラッチ 1.00
基 1.00
辞書 1.00
] 1.00
独立 1.00
なかなかいい感じではないでしょうか?!
’[’ や ’]’ や ’.’ が邪魔なような感じがしますので、少しカスタムが必要そうですが。
ディスカッション
コメント一覧
まだ、コメントがありません