共起語ツールの作成

2017年6月4日

関連後やサジェストを調べると記事作成がはかどります。
と言うか、SEO的にも良い記事が出来上がる・・・ような気がする。

そこで共起語

共起というのは、

共起(きょうき)は、ある単語がある文章(または文)中に出たとき、その文章(文)中に別の限られた単語が頻繁に出現すること。

ということですから、
Google検索やBing検索で
あるキーワードを検索したときに、同時に使っているキーワードを抽出すれば良い感じがします。
関連語やサジェストではサービスが停止したり不便なこともありましたが、
共起語は検索結果ですので、ずっと使えそうですね。

とりあえず形態素解析

共起の共起語を考えてみます。

自然言語処理の分野において、任意の文書や文において、ある文字列とある文字列が同時に出現することである。

これをmecabコマンドにかけてみます。

すると結果はこう出ました。

自然 名詞,形容動詞語幹,*,*,*,*,自然,シゼン,シゼン
言語 名詞,一般,*,*,*,*,言語,ゲンゴ,ゲンゴ
処理 名詞,サ変接続,*,*,*,*,処理,ショリ,ショリ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
分野 名詞,一般,*,*,*,*,分野,ブンヤ,ブンヤ
において 助詞,格助詞,連語,*,*,*,において,ニオイテ,ニオイテ
、 記号,読点,*,*,*,*,、,、,、
任意 名詞,一般,*,*,*,*,任意,ニンイ,ニンイ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
文書 名詞,一般,*,*,*,*,文書,ブンショ,ブンショ
や 助詞,並立助詞,*,*,*,*,や,ヤ,ヤ
文 名詞,一般,*,*,*,*,文,ブン,ブン
において 助詞,格助詞,連語,*,*,*,において,ニオイテ,ニオイテ
、 記号,読点,*,*,*,*,、,、,、
ある 連体詞,*,*,*,*,*,ある,アル,アル
文字 名詞,一般,*,*,*,*,文字,モジ,モジ
列 名詞,一般,*,*,*,*,列,レツ,レツ
と 助詞,格助詞,一般,*,*,*,と,ト,ト
ある 動詞,自立,*,*,五段・ラ行,基本形,ある,アル,アル
文字 名詞,一般,*,*,*,*,文字,モジ,モジ
列 名詞,一般,*,*,*,*,列,レツ,レツ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
同時に 副詞,一般,*,*,*,*,同時に,ドウジニ,ドージニ
出現 名詞,サ変接続,*,*,*,*,出現,シュツゲン,シュツゲン
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
こと 名詞,非自立,一般,*,*,*,こと,コト,コト
で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。 記号,句点,*,*,*,*,。,。,。

名詞だけに絞るとこんな感じに。

自然 言語 処理 分野 任意 文書 文 文字 列 文字 列 出現 こと

一部ダブっていますが。

これは悩ましいかも

冒頭の
 ”自然 言語 処理”
は1語ずつとするのか
 ”自然言語処理”
と一つの単語として扱うのが正解なのか判断がわかれるところで悩ましいですね。

もう少しいろいろ試していこうと思います。