開発アーカイブ - 6ページ目 (7ページ中)

解析結果を見てみる

2017年6月16日開発

静岡、でグーグル検索した結果は以下の様なものです。

静岡県公式ホームページふじのくに総合トップページ
静岡の観光スポットランキングTOP10 – じゃらんnet
静岡県 &

記事を読む解析結果を見てみる

検索結果のURL先のテキストをすべて読み込む（修正版）[Perl]

2017年6月15日開発

2017年6月16日

というわけで、修正版です。

これで、「静岡」という検索結果のURL先のテキストをすべて抜き出せます。

スパゲッティ的ではありますが、実現が第一ということで・・・。

#!/usr/bin/perluse s ...

記事を読む検索結果のURL先 ...

HTML::TreeBuilderでの文字化け対策

2017年6月14日開発

サンプルを作り特殊文字を含めてみて検証を行いました。

テストページ

そのままでテキストデータを取得します。

テストページこれはテストコンテンツです。テストとは、英語のtestのカタカナ表記です。 ...

記事を読む HTML::TreeBuilde ...

HTML::TreeBuilderで文字化けしたので検証した

2017年6月13日開発

をHTML::TreeBuilderで解析しようとすると文字化けしてしまう。
headタグのみ
titleタグのみ
など絞るとOKなのですが、
html全体
bodyタグ内
を ...

記事を読む HTML::TreeBuilde ...

検索結果のURL先のテキストをすべて読み込む[Perl]

2017年6月12日開発

今まで作ったものをつなげただけです。

#!/usr/bin/perluse strict;use warnings;use LWP::UserAgent;use HTML::TreeBuilder;use Jcode;# url ...

記事を読む検索結果のURL先 ...

文字コードを自動的にチェックしてテキストを取得する[perl編]

2017年6月11日開発

実は文字コードは、かなり色々あるのですが、基本的には3つです。

ShiftJIS
UTF-8
EUC-JP

ですね。
個人的にはEUC-JPが好みですが、
世の中のUTF-8化の流れには逆 ...

記事を読む文字コードを自動 ...

URL内のテキストをすべて抜き出すには[Perl編]

2017年6月10日開発

URLを抽出できるようになったので、次にそのURLのテキストを抜き出してみます。
実際には無駄な部分も取得されてしまうと思いますが・・・。

まずはこんな感じにして取得してみました。

#!/usr/bin/pe ...

記事を読む URL内のテキスト ...

Google検索結果のURLを整形する

2017年6月9日開発

url=&rct
の　ここ　のみを取得します。

というわけでこんなサブルーチンを作ってみました。

sub urlget{ my $url=shift; if ( $url=~/\?url\=(.*)\ ...

記事を読む Google検索結果の ...

Google検索結果を検証。必要なURLだけ取得したい。

2017年6月8日開発

perlで取得した結果がなんか変だったので確かめてみます。

改めまして、「静岡」で検索しました。

静岡県公式ホームページふじのくに総合トップページ/url?url=静岡の観光スポットランキ ...

記事を読む Google検索結果を ...

Google検索結果を取得する

2017年6月7日開発

2017年6月8日

google検索結果を取得するにはAPIを使う方法がありますが、
無料分は100クエリまでということですので、普通に検索結果から取得してみます。

#!/usr/bin/perluse strict;use warning ...

記事を読む Google検索結果を取得する