開発

Thumbnail of post image 133

URLを抽出できるようになったので、次にそのURLのテキストを抜き出してみます。
実際には無駄な部分も取得されてしまうと思いますが・・・。

まずはこんな感じにして取得してみました。

#!/usr/bin/pe ...

開発

Thumbnail of post image 126

url=&rct
の ここ のみを取得します。

というわけでこんなサブルーチンを作ってみました。

sub urlget{ my $url=shift; if ( $url=~/\?url\=(.*)\ ...

開発

Thumbnail of post image 114

perlで取得した結果がなんか変だったので確かめてみます。

 

改めまして、「静岡」で検索しました。

静岡県公式ホームページ ふじのくに総合トップページ/url?url=静岡の観光スポットランキ ...

開発

Thumbnail of post image 096

google検索結果を取得するにはAPIを使う方法がありますが、
無料分は100クエリまでということですので、普通に検索結果から取得してみます。

#!/usr/bin/perluse strict;use warning ...

開発

No Image

WEBページからテキストを抽出して形態素解析にかけるには
テキスト抜き出しをしなければなりません。

タグを削除する

単純にタグを消すだけでも良いのですが、
↑に説明があるように、HTML::To ...

開発

Thumbnail of post image 039

さくらインターネットでTermExtractが使えるかどうか試してみました。

cpanmを使ってインストールしました。

cpanm

perlモジュールのinstallにcpanmを使う

さくらインター ...

開発

Thumbnail of post image 067

Mecabだとキーワードが細切れになってしまいます。
名詞と名詞をつなげるというようなカスタマイズもありですが、
自動的につなげてくれるモジュールがあるようです。

専門用語(キーワード)自動抽出システム R ...

開発

Thumbnail of post image 045

関連後やサジェストを調べると記事作成がはかどります。
と言うか、SEO的にも良い記事が出来上がる・・・ような気がする。

そこで共起語

共起というのは、

共起(きょうき)は、ある単語がある文章(または文)中 ...

ゲーム

Thumbnail of post image 149

週末の会社の帰りによく寄っていたゲームセンターがありました。
そこにはやがてタイムクライシス2がやってきました。
これも結構やったと思うのですが、あまり覚えていません。

クライシスゾーン登場

という

ゲーム

Thumbnail of post image 182

私はゲームが大好きだったので、
むしろ逆に、大学時代はゲーム断ち、をしていました。
一人暮らしでしたので、家にゲームを持ち込んでしまうと、ゲームばかりやってしまうと思ったんです。
(その結果テレビばかり見てまし ...