티스토리 뷰
파이썬 웹 크롤링 연습 예제 #1
네이버 사이트의 웹 크롤링을 위해서 파이썬의 함수중에 Beautifulsoup을 이용하여 span 안에 있는 내용을 추출하는 파이썬 크롤링 연습한 예제 내용입니다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 | from bs4 import BeautifulSoup import urllib.request def get_soup(target_url): html = urllib.request.urlopen(target_url).read() soup = BeautifulSoup(html, 'html.parser') #print(soup) return soup def extract_data(soup): keywords = soup.find_all('span',{'class':'td_t'}) # 데이터에서 태그와 클래스를 찾는 함수 #get_text() == 데이터에서 문자열만 추출 #strip() == 데이터의 양옆 공백제거 #[:20]의 이유? 인기검색어의 중복을 막고 20위까지만 출력하기 위함 keywords = [each_line.get_text().strip() for each_line in keywords[:20]] for keyword in keywords: print(keyword) target_url = 'https://www.naver.com/' soup = get_soup(target_url) extract_data(soup) | cs |
'개발 > Python 웹 크롤링' 카테고리의 다른 글
파이썬 웹 크롤링 연습 예제 #5 (0) | 2020.03.02 |
---|---|
파이썬 웹 크롤링 연습 예제 #4 (0) | 2020.03.02 |
파이썬 웹 크롤링 연습 예제 #3 (0) | 2020.03.02 |
웹 크롤링을 위한 파이썬 설치 및 환경 설정 (0) | 2020.03.02 |
파이썬 웹 크롤링 연습 예제 #1 (1) | 2020.03.01 |
댓글