開発

URLを抽出できるようになったので、次にそのURLのテキストを抜き出してみます。
実際には無駄な部分も取得されてしまうと思いますが・・・。

まずはこんな感じにして取得してみました。

#!/usr/bin/pe ...

開発

url=&rct
の ここ のみを取得します。

というわけでこんなサブルーチンを作ってみました。

sub urlget{ my $url=shift; if ( $url=~/\?url\=(.*)\ ...

開発

perlで取得した結果がなんか変だったので確かめてみます。

 

改めまして、「静岡」で検索しました。

静岡県公式ホームページ ふじのくに総合トップページ/url?url=静岡の観光スポットランキ ...

開発

google検索結果を取得するにはAPIを使う方法がありますが、
無料分は100クエリまでということですので、普通に検索結果から取得してみます。

#!/usr/bin/perluse strict;use warning ...

開発

WEBページからテキストを抽出して形態素解析にかけるには
テキスト抜き出しをしなければなりません。

タグを削除する

単純にタグを消すだけでも良いのですが、
↑に説明があるように、HTML::To ...