Google検索結果のURLを整形する
url=[ここを取得]&rct
の ここ のみを取得します。
というわけでこんなサブルーチンを作ってみました。
sub urlget{ my $url=shift; if ( $url=~ /\?url\=(.*)\&rct/ ){ return $1; } else{ return $url; } }
ほんで、取得・・・
静岡県公式ホームページ ふじのくに総合トップページ
https://www.pref.shizuoka.jp/
静岡県 – Wikipedia
https://ja.wikipedia.org/wiki/%25E9%259D%2599%25E5%25B2%25A1%25E7%259C%258C
静岡の観光スポットランキングTOP10 – じゃらんnet
http://www.jalan.net/kankou/210000/
ハローナビしずおか 静岡県観光情報公式ホームページ
http://hellonavi.jp/
静岡 のニュース検索結果
/search?q=%E9%9D%99%E5%B2%A1&lr=&hl=ja&prmd=ivnsm&source=univ&tbm=nws&tbo=u&sa=X&ved=0ahUKEwjtxcLm0q_UAhXITrwKHQjbBVwQqAIILA
静岡市ホームページ
http://www.city.shizuoka.jp/
絶対に行きたい!“静岡”のオススメ観光スポットランキングTOP40 …
https://retrip.jp/articles/5381/
@S[アットエス] | 静岡新聞SBSオフィシャルサイト
http://www.at-s.com/
しずおか観光情報 駿府静岡市 最高の体験と感動を
http://www.visit-shizuoka.com/
静岡銀行
http://www.shizuokabank.co.jp/
おや・・・一つ変なのがあります。
静岡 のニュース検索結果 /search?q=%E9%9D%99%E5%B2%A1&lr=&hl=ja&prmd=ivnsm&source=univ&tbm=nws&tbo=u&sa=X&ved=0ahUKEwjtxcLm0q_UAhXITrwKHQjbBVwQqAIILA
これって、「googleの検索結果が」検索結果に出ているってことみたいですね。
相対パスになります。
ので
https://www.google.co.jp/search?q=%E9%9D%99%E5%B2%A1&lr=&hl=ja&prmd=ivnsm&source=univ&tbm=nws&tbo=u&sa=X&ved=0ahUKEwjtxcLm0q_UAhXITrwKHQjbBVwQqAIILA
とするのが正しそうです。
ですが、いまは共起語の取得のためですから、
このURLは除外してしまっても良いかもしれません。
除外、とすることにします。
sub urlget{ my $url=shift; if ( $url=~ /\?url\=(.*)\&rct/ ){ return $1; } else{ return ""; } }
こうすると、マッチしないときには空を返すようになりますね。
ディスカッション
コメント一覧
まだ、コメントがありません