2013년 4월 3일 수요일

[Python] BeautifulSoup를 이용한 웹 페이지 파징


웹 페이지 파징을 쉽고 빠르게 하는 방법 중 하나는

파이썬의 BeautifulSoup 모듈을 사용하는 것 입니다.

링크 : http://www.crummy.com/software/BeautifulSoup/
Documentation : http://www.crummy.com/software/BeautifulSoup/bs4/doc/

soup.findAll('a',{'class':'class_name'}) 이 함수만 보더라도

충분히 BeautifulSoup 의 강점을 느끼실 수 있을겁니다.

아래는 urllib2 모듈과 BeautifulSoup 모듈을 이용한 간단한 파징 예제 입니다.

from BeautifulSoup import BeautifulSoup
import urllib2

url="http://웹페이지 주소"

page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

# 'a' 태그 중에서 class 이름이 class_name 인 element 를 저장
elements=soup.findAll('a',{'class':'class_name'})

for element in elements:
    print element['href']+","+ element.string

댓글 없음:

댓글 쓰기