Pythonでスクレイピング
今回はPythonでスクレイピングをします。
モジュールとしてBeautifulSoupを使いました。
WikipediaのPythonの記事からテキストをとりだそうと思います。
#coding:utf-8 import urllib2 from bs4 import BeautifulSoup u = "http://ja.wikipedia.org/wiki/Python" opener = urllib2.build_opener() html = opener.open(u).read() #htmlの取得 soup = BeautifulSoup(html) text = soup.findAll("p") #<p>タグを全て取り出す for sub in text: print sub.get_text() #<p>タグ内のテキストのみprintする
BeautifulSoupはとても便利!!
実行結果 ■カテゴリ / ■テンプレート Python(パイソン)は、広く使用されている汎用のスクリプト言語である。コードのリーダビリティが高くなるように言語が設計されていると主張され、その構文のおかげで、Cなどの言語に比べて、より少ないコード行数でプログラムを表現することができる[11][12]と主張されている。小規模なプログラムから大規模なプログラムまで、さまざまなプログラムをクリアに書けるように、多くのコードが提供されている[13]。 Pythonは複数のプログラミングパラダイムをサポートしており、オブジェクト指向、命令型、関数型、手続き型などのスタイルでプログラムを書くことができる。動的型付けである。参照カウントベースの自動メモリ管理(ガベージコレクタ)を持つ。さまざまな領域をカバーする大規模な標準ライブラリを提供している[14]。 以下続く...
このような形で簡単に実装できます!!