2017年6月 | ページ 2 | 自鯖活動日記 ynko's blog

ex_mecab.plを短く修正

2017年6月20日開発

CGI化するためにシンプルに修正してみました。

どういうわけかTermExtractにUTF8で通すと結果が何も返らずEUCに変換しないとダメなので
そのようにしてみました。

何か原因があると思いますが ...

ex_mecab.plのオプションを変化させて結果を見る（２）

2017年6月19日開発

次は重要度計算になります。

重要度計算で、「ドキュメント中の用語の頻度」と「連接語の重要度」
のどちらに比重をおくかを設定する。
値が大きいほど「ドキュメント中の用語の頻度」の比重が高まる

６． ...

ex_mecab.plのオプションを変化させて結果を見る（１）

2017年6月18日開発

オプションを検証してみます。

解析する例文は「静岡」で検索した一覧です。
URL先の文章まで読み込むと文章が大きすぎるので結果一覧のものだけとしました。

静岡県公式ホームページふじのくに総合トップペー ...

ex_mecab.plの内容をみてみた

2017年6月17日未分類, 開発

ex_mecab.pl　の中でやっていることをみてみました。

# 出力モードを指定# 1 → 専門用語＋重要度、2 → 専門用語のみ# 3 → カンマ区切りmy $output_mode = 1;

出力形式を変えられるように ...

解析結果を見てみる

2017年6月16日開発

静岡、でグーグル検索した結果は以下の様なものです。

静岡県公式ホームページふじのくに総合トップページ
静岡の観光スポットランキングTOP10 – じゃらんnet
静岡県 &

検索結果のURL先のテキストをすべて読み込む（修正版）[Perl]

2017年6月15日開発

2017年6月16日

というわけで、修正版です。

これで、「静岡」という検索結果のURL先のテキストをすべて抜き出せます。

スパゲッティ的ではありますが、実現が第一ということで・・・。

#!/usr/bin/perluse s ...

HTML::TreeBuilderでの文字化け対策

2017年6月14日開発

サンプルを作り特殊文字を含めてみて検証を行いました。

テストページ

そのままでテキストデータを取得します。

テストページこれはテストコンテンツです。テストとは、英語のtestのカタカナ表記です。 ...

HTML::TreeBuilderで文字化けしたので検証した

2017年6月13日開発

をHTML::TreeBuilderで解析しようとすると文字化けしてしまう。
headタグのみ
titleタグのみ
など絞るとOKなのですが、
html全体
bodyタグ内
を ...

検索結果のURL先のテキストをすべて読み込む[Perl]

2017年6月12日開発

今まで作ったものをつなげただけです。

#!/usr/bin/perluse strict;use warnings;use LWP::UserAgent;use HTML::TreeBuilder;use Jcode;# url ...

文字コードを自動的にチェックしてテキストを取得する[perl編]

2017年6月11日開発

実は文字コードは、かなり色々あるのですが、基本的には3つです。

ShiftJIS
UTF-8
EUC-JP

ですね。
個人的にはEUC-JPが好みですが、
世の中のUTF-8化の流れには逆 ...