URL内のテキストをすべて抜き出すには[Perl編]
URLを抽出できるようになったので、次にそのURLのテキストを抜き出してみます。
実際には無駄な部分も取得されてしまうと思いますが・・・。
まずはこんな感じにして取得してみました。
#!/usr/bin/pe ...
Google検索結果のURLを整形する
url=&rct
の ここ のみを取得します。
というわけでこんなサブルーチンを作ってみました。
sub urlget{ my $url=shift; if ( $url=~/\?url\=(.*)\ ...
Google検索結果を検証。必要なURLだけ取得したい。
perlで取得した結果がなんか変だったので確かめてみます。
改めまして、「静岡」で検索しました。
静岡県公式ホームページ ふじのくに総合トップページ/url?url=静岡の観光スポットランキ ...
Google検索結果を取得する
google検索結果を取得するにはAPIを使う方法がありますが、
無料分は100クエリまでということですので、普通に検索結果から取得してみます。
[前途多難]テキスト抜き出し
WEBページからテキストを抽出して形態素解析にかけるには
テキスト抜き出しをしなければなりません。
タグを削除する
単純にタグを消すだけでも良いのですが、
↑に説明があるように、HTML::To ...
さくらインターネットでTermExtractを使ってみる
さくらインターネットでTermExtractが使えるかどうか試してみました。
cpanmを使ってインストールしました。
cpanmperlモジュールのinstallにcpanmを使う
さくらインター ...
TermExtractインストールするも、まったく動作しなかった
Mecabだとキーワードが細切れになってしまいます。
名詞と名詞をつなげるというようなカスタマイズもありですが、
自動的につなげてくれるモジュールがあるようです。
共起語ツールの作成
関連後やサジェストを調べると記事作成がはかどります。
と言うか、SEO的にも良い記事が出来上がる・・・ような気がする。
共起というのは、
共起(きょうき)は、ある単語がある文章(または文)中 ...
クライシスゾーンにハマった話
週末の会社の帰りによく寄っていたゲームセンターがありました。
そこにはやがてタイムクライシス2がやってきました。
これも結構やったと思うのですが、あまり覚えていません。
という
ガンシューの傑作。タイムクライシス
私はゲームが大好きだったので、
むしろ逆に、大学時代はゲーム断ち、をしていました。
一人暮らしでしたので、家にゲームを持ち込んでしまうと、ゲームばかりやってしまうと思ったんです。
(その結果テレビばかり見てまし ...