NINのブログ

主に機械学習とか統計モデリングとか金融とか

2014-08-04から1日間の記事一覧

Python-MeCabでtf-idf法の実装

こんにちは。 今回はMeCabで形態素解析をした後に、tf-idf法で文章の特徴語検出をする方法を紹介します。tf-idf法についてWikipediaより引用します。 tf-idfは、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。 tf-i…

Pythonでスクレイピング

今回はPythonでスクレイピングをします。 モジュールとしてBeautifulSoupを使いました。 WikipediaのPythonの記事からテキストをとりだそうと思います。 #coding:utf-8 import urllib2 from bs4 import BeautifulSoup u = "http://ja.wikipedia.org/wiki/Pyt…

引き続き形態素解析

前回に引き続き形態素解析です。 今回は、形態素解析した後に目的の品詞のみ、抽出する方法を紹介します。 #coding:utf-8 import MeCab sentence = "きのこ帝国とは日本のオルタナティヴ・ロックバンド。" tagger = MeCab.Tagger() result = tagger.parse(se…