さくらインターネットでTermExtractを使ってみる

さくらインターネットでTermExtractが使えるかどうか試してみました。

cpanmを使ってインストールしました。

cpanm

perlモジュールのinstallにcpanmを使う

さくらインターネットサーバでのCPAN導入を完全に手順化して見た

手前味噌ですが・・・
さくらインターネットにcpanmでNET::Twitterを導入(1)(CPANM導入編)

cpanmは既にインストール済みの方が多いかもしれませんね。

TermExtractをインストール

cpanmでインストールします。

wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_11.tar.gz
cpanm TermExtract-4_11.tar.gz

これだけ。

試してみる

自分のブログから少し抜き出してきました。

形態素解析して共起語を抽出したいと思います。
Mecabだとキーワードが細切れになってしまいます。
名詞と名詞をつなげるというようなカスタマイズもありですが、
自動的につなげてくれるモジュールがあるようです。

これをtest.txtとして

mecab text.txt > mecab_out.txt

./ex_mecab.pl

補足
@INCにはいっていない場合は
use TermExtract::MeCab; の前にいかのように書いておくと動きます。
use lib '/home/ユーザー名/perl5/lib/perl5’;

結果はこんな感じ

名詞 2.00
共起語 1.41
モジュール 1.00
キーワード 1.00
細切れ 1.00
カスタマイズ 1.00
Mecab 1.00

なかなか良い感じです。

課題

今後の課題です。

  1. google検索
  2. 検索結果のリンク部分を取得
  3. リンクを開く
  4. テキスト部分を抜き出す

こうして得たテキストを解析すると共起語っぽい結果が得られるのではないでしょうか。