NINのブログ

主に機械学習とか統計モデリングとか金融とか

Pythonでスクレイピング

今回はPythonスクレイピングをします。
モジュールとしてBeautifulSoupを使いました。
WikipediaPythonの記事からテキストをとりだそうと思います。

#coding:utf-8

import urllib2
from bs4 import BeautifulSoup

u = "http://ja.wikipedia.org/wiki/Python"
opener = urllib2.build_opener()
html = opener.open(u).read()  #htmlの取得
soup = BeautifulSoup(html)
text = soup.findAll("p") #<p>タグを全て取り出す
for sub in text:
    print sub.get_text() #<p>タグ内のテキストのみprintする

BeautifulSoupはとても便利!!

実行結果
■カテゴリ / ■テンプレート
Python(パイソン)は、広く使用されている汎用のスクリプト言語である。コードのリーダビリティが高くなるように言語が設計されていると主張され、その構文のおかげで、Cなどの言語に比べて、より少ないコード行数でプログラムを表現することができる[11][12]と主張されている。小規模なプログラムから大規模なプログラムまで、さまざまなプログラムをクリアに書けるように、多くのコードが提供されている[13]。
Pythonは複数のプログラミングパラダイムをサポートしており、オブジェクト指向、命令型、関数型、手続き型などのスタイルでプログラムを書くことができる。動的型付けである。参照カウントベースの自動メモリ管理(ガベージコレクタ)を持つ。さまざまな領域をカバーする大規模な標準ライブラリを提供している[14]。

以下続く...

このような形で簡単に実装できます!!