引き続き形態素解析
前回に引き続き形態素解析です。
今回は、形態素解析した後に目的の品詞のみ、抽出する方法を紹介します。
#coding:utf-8 import MeCab sentence = "きのこ帝国とは日本のオルタナティヴ・ロックバンド。" tagger = MeCab.Tagger() result = tagger.parse(sentence) wordList = result.split()[:-1:2] speechList = result.split()[1:-1:2] wordDict = {} for i in range(len(wordList)): wordDict[wordList[i]] = speechList[i].rsplit(",")[0] for word in wordDict: if wordDict[word] == "名詞": print word
センテンスから名詞のみ抽出するプログラムを書きました。
実行結果 きのこ 帝国 日本 オルタナティヴ・ロックバンド
名詞のみ抽出できました
(「きのこ帝国」のような固有名詞は正しく認識されない場合が多いですが...)