開発

Thumbnail of post image 032

CGI化するためにシンプルに修正してみました。

どういうわけかTermExtractにUTF8で通すと結果が何も返らずEUCに変換しないとダメなので
そのようにしてみました。

何か原因があると思いますが ...

開発

No Image

次は重要度計算になります。

重要度計算で、「ドキュメント中の用語の頻度」と「連接語の重要度」
のどちらに比重をおくかを設定する。
値が大きいほど「ドキュメント中の用語の頻度」の比重が高まる

6. ...

開発

Thumbnail of post image 058

オプションを検証してみます。

解析する例文は「静岡」で検索した一覧です。
URL先の文章まで読み込むと文章が大きすぎるので結果一覧のものだけとしました。

静岡県公式ホームページ ふじのくに総合トップペー ...

未分類,開発

Thumbnail of post image 013

ex_mecab.pl の中でやっていることをみてみました。

# 出力モードを指定# 1 → 専門用語+重要度、2 → 専門用語のみ# 3 → カンマ区切りmy $output_mode = 1;

出力形式を変えられるように ...

開発

Thumbnail of post image 143

静岡、でグーグル検索した結果は以下の様なものです。

静岡県公式ホームページ ふじのくに総合トップページ
静岡の観光スポットランキングTOP10 – じゃらんnet
静岡県 &

開発

Thumbnail of post image 129

というわけで、修正版です。

これで、「静岡」という検索結果のURL先のテキストをすべて抜き出せます。

スパゲッティ的ではありますが、実現が第一ということで・・・。

#!/usr/bin/perluse s ...

開発

Thumbnail of post image 156

サンプルを作り特殊文字を含めてみて検証を行いました。

テストページ

そのままでテキストデータを取得します。

テストページ これはテストコンテンツです。 テストとは、英語のtestのカタカナ表記です。 ...

開発

Thumbnail of post image 089

をHTML::TreeBuilderで解析しようとすると文字化けしてしまう。
headタグのみ
titleタグのみ
など絞るとOKなのですが、
html全体
bodyタグ内
を ...

開発

Thumbnail of post image 124

今まで作ったものをつなげただけです。

#!/usr/bin/perluse strict;use warnings;use LWP::UserAgent;use HTML::TreeBuilder;use Jcode;# url ...

開発

Thumbnail of post image 096

実は文字コードは、かなり色々あるのですが、基本的には3つです。

ShiftJIS
UTF-8
EUC-JP

ですね。
個人的にはEUC-JPが好みですが、
世の中のUTF-8化の流れには逆 ...