さくらインターネットでTermExtractを使ってみる

2017年6月5日

さくらインターネットでTermExtractが使えるかどうか試してみました。

cpanmを使ってインストールしました。

cpanmは既にインストール済みの方が多いかもしれませんね。

cpanmでインストールします。

wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_11.tar.gz
cpanm TermExtract-4_11.tar.gz

これだけ。

自分のブログから少し抜き出してきました。

形態素解析して共起語を抽出したいと思います。
Mecabだとキーワードが細切れになってしまいます。
名詞と名詞をつなげるというようなカスタマイズもありですが、
自動的につなげてくれるモジュールがあるようです。

これをtest.txtとして

mecab text.txt > mecab_out.txt

補足
@INCにはいっていない場合は
use TermExtract::MeCab;　の前にいかのように書いておくと動きます。
use lib '/home/ユーザー名/perl5/lib/perl5’;

結果はこんな感じ

名詞 2.00
共起語 1.41
モジュール 1.00
キーワード 1.00
細切れ 1.00
カスタマイズ 1.00
Mecab 1.00

なかなか良い感じです。

今後の課題です。

こうして得たテキストを解析すると共起語っぽい結果が得られるのではないでしょうか。