開発

というわけで、修正版です。

これで、「静岡」という検索結果のURL先のテキストをすべて抜き出せます。

スパゲッティ的ではありますが、実現が第一ということで・・・。

#!/usr/bin/perluse s ...

開発

サンプルを作り特殊文字を含めてみて検証を行いました。

テストページ

そのままでテキストデータを取得します。

テストページ これはテストコンテンツです。 テストとは、英語のtestのカタカナ表記です。 ...

開発

をHTML::TreeBuilderで解析しようとすると文字化けしてしまう。
headタグのみ
titleタグのみ
など絞るとOKなのですが、
html全体
bodyタグ内
を ...

開発

今まで作ったものをつなげただけです。

#!/usr/bin/perluse strict;use warnings;use LWP::UserAgent;use HTML::TreeBuilder;use Jcode;# url ...

開発

実は文字コードは、かなり色々あるのですが、基本的には3つです。

ShiftJIS
UTF-8
EUC-JP

ですね。
個人的にはEUC-JPが好みですが、
世の中のUTF-8化の流れには逆 ...