NINのブログ

主に機械学習とか統計モデリングとか金融とか

引き続き形態素解析

前回に引き続き形態素解析です。
今回は、形態素解析した後に目的の品詞のみ、抽出する方法を紹介します。

#coding:utf-8
import MeCab

sentence = "きのこ帝国とは日本のオルタナティヴ・ロックバンド。"

tagger = MeCab.Tagger()
result = tagger.parse(sentence)

wordList = result.split()[:-1:2]
speechList = result.split()[1:-1:2]

wordDict = {}
for i in range(len(wordList)):
    wordDict[wordList[i]] = speechList[i].rsplit(",")[0]

for word in wordDict:
    if wordDict[word] == "名詞":
        print word

センテンスから名詞のみ抽出するプログラムを書きました。

実行結果
きのこ
帝国
日本
オルタナティヴ・ロックバンド

名詞のみ抽出できました
(「きのこ帝国」のような固有名詞は正しく認識されない場合が多いですが...)


きのこ帝国 - 海と花束 (MV) - YouTube