티스토리 뷰

파이썬 웹 크롤링 연습 예제 #1


네이버 사이트의 웹 크롤링을 위해서 파이썬의 함수중에 Beautifulsoup을 이용하여 span 안에 있는 내용을 추출하는 파이썬 크롤링 연습한 예제 내용입니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
from bs4 import BeautifulSoup
import urllib.request
 
def get_soup(target_url):
    html = urllib.request.urlopen(target_url).read()
    soup = BeautifulSoup(html, 'html.parser')
    #print(soup)
    return soup
 
def extract_data(soup):
    keywords = soup.find_all('span',{'class':'td_t'}) # 데이터에서 태그와 클래스를 찾는 함수
    #get_text() == 데이터에서 문자열만 추출
    #strip() == 데이터의 양옆 공백제거
    #[:20]의 이유? 인기검색어의 중복을 막고 20위까지만 출력하기 위함
    keywords = [each_line.get_text().strip() for each_line in keywords[:20]]
    for keyword in keywords:
        print(keyword) 
 
target_url = 'https://www.naver.com/'
soup = get_soup(target_url)
extract_data(soup)
 
cs





댓글
«   2025/09   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
공지사항
최근에 올라온 글
최근에 달린 댓글
링크