解析結果を見てみる
静岡、でグーグル検索した結果は以下の様なものです。
静岡県公式ホームページ ふじのくに総合トップページ
静岡の観光スポットランキングTOP10 – じゃらんnet
静岡県 &
検索結果のURL先のテキストをすべて読み込む(修正版)[Perl]
というわけで、修正版です。
これで、「静岡」という検索結果のURL先のテキストをすべて抜き出せます。
スパゲッティ的ではありますが、実現が第一ということで・・・。
#!/usr/bin/perluse s ...
HTML::TreeBuilderでの文字化け対策
サンプルを作り特殊文字を含めてみて検証を行いました。
テストページ
そのままでテキストデータを取得します。
テストページ これはテストコンテンツです。 テストとは、英語のtestのカタカナ表記です。 ...
HTML::TreeBuilderで文字化けしたので検証した
をHTML::TreeBuilderで解析しようとすると文字化けしてしまう。
headタグのみ
titleタグのみ
など絞るとOKなのですが、
html全体
bodyタグ内
を ...
検索結果のURL先のテキストをすべて読み込む[Perl]
今まで作ったものをつなげただけです。
#!/usr/bin/perluse strict;use warnings;use LWP::UserAgent;use HTML::TreeBuilder;use Jcode;# url ...
文字コードを自動的にチェックしてテキストを取得する[perl編]
実は文字コードは、かなり色々あるのですが、基本的には3つです。
ShiftJISUTF-8
EUC-JP
ですね。
個人的にはEUC-JPが好みですが、
世の中のUTF-8化の流れには逆 ...
URL内のテキストをすべて抜き出すには[Perl編]
URLを抽出できるようになったので、次にそのURLのテキストを抜き出してみます。
実際には無駄な部分も取得されてしまうと思いますが・・・。
まずはこんな感じにして取得してみました。
#!/usr/bin/pe ...
Google検索結果のURLを整形する
url=&rct
の ここ のみを取得します。
というわけでこんなサブルーチンを作ってみました。
sub urlget{ my $url=shift; if ( $url=~/\?url\=(.*)\ ...
Google検索結果を検証。必要なURLだけ取得したい。
perlで取得した結果がなんか変だったので確かめてみます。
改めまして、「静岡」で検索しました。
静岡県公式ホームページ ふじのくに総合トップページ/url?url=静岡の観光スポットランキ ...
Google検索結果を取得する
google検索結果を取得するにはAPIを使う方法がありますが、
無料分は100クエリまでということですので、普通に検索結果から取得してみます。