TermExtractインストールするも、まったく動作しなかった

2017年6月4日

Mecabだとキーワードが細切れになってしまいます。
名詞と名詞をつなげるというようなカスタマイズもありですが、
自動的につなげてくれるモジュールがあるようです。

専門用語（キーワード）自動抽出システム – TermExtract

インストールは以下を参考にRaspberryPiにインストールしました。

> wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_11.tar.gz
> tar xvzf TermExtract-4_11.tar.gz
> cd TermExtract-4_11
> perl Makefile.PL
> make
> sudo make install

対象テキストはmecabのwikiの文章としました。

まずmecabで解析したテキストをmecab_out.txtに出力して
ex_mecab.pl
を実行すればよいのだと思うが何も表示されない。

というわけでデバッグ実行してみました。

デバッグ

> perl -d ex_mecab.pl

main::(./ex_mecab.pl:15): my $data = new TermExtract::MeCab;
DB n
main::(./ex_mecab.pl:16): my $InputFile = “mecab_out.txt"; # 入力ファイル
DB n
main::(./ex_mecab.pl:20): $SIG{INT} = $SIG{QUIT} = $SIG{TERM} = 'sigexit’;
DB n
main::(./ex_mecab.pl:25): my $output_mode = 1;
DB n
main::(./ex_mecab.pl:100): my @noun_list = $data->get_imp_word($InputFile); # 入力がファイル
DB n
main::(./ex_mecab.pl:112): foreach (@noun_list) {
DB n
Debugged program terminated. Use q to quit or R to restart,
use o inhibit_exit to avoid stopping after program termination,
h q, h R or h o to get additional info.

という感じで終わってしまう。
get_imp_wordを実行しても
@noun_listに何も値が入らないみたい・・・。

eucにしたら動いた

ベースはUTF8で動いているのだけど、何故かEUCじゃないとダメな感じになってしまいました。

というわけで、なんかうまく動かないと思った方は
一旦変換対象をEUCにしてみると動くかもしれません。

結果は以下のような感じです。

ChaSen 4.00
. 3.00
MeCab 3.00
日本語入力 2.91
解析 2.83
[ 2.83
Google日本語入力開発者 2.35
開発者 2.21
開発開始 2.00
– 2.00
解析精度 2.00
]。 2.00
][ 2.00
解析速度 2.00
規模日本語n – gramデータ 1.95
iPhone OS 1.86
品詞情報 1.86
形態素解析エンジン 1.78
Mac OS X v 1.77
Google 1.73
IPA品詞体系 1.70
Googleソフトウェアエンジニア 1.70
工藤拓[ 1.59
奈良先端科学技術大学院大学出身 1.41
オープンソース 1.41
和布蕪 1.41
v 1.41
IPADIC 1.00
推定 1.00
程度 1.00
作成 1.00
Spotlight 1.00
ChaSenTNG 1.00
平均 1.00
好物 1.00
名前 1.00
名称 1.00
スクラッチ 1.00
基 1.00
辞書 1.00
] 1.00
独立 1.00

なかなかいい感じではないでしょうか？！
’[’　や　’]’　や　’.’　が邪魔なような感じがしますので、少しカスタムが必要そうですが。

開発

さくらインターネットでTermExtractを使ってみる