파이썬 웹 크롤링 연습 예제 #3

티스토리 뷰

개발/Python 웹 크롤링

파이썬 웹 크롤링 연습 예제 #3

KellyEnLab 2020. 3. 2. 08:50

파이썬 웹 크롤링 연습 예제 #3

교보문고 종합 주간 베스트 페이지에서 리스트를 추출하여 메타 정보로부터 필요한 정보를 추출합니다.

추출 정보 : title, author, image, url, originalPrice, salePrice

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
from bs4 import BeautifulSoup
import urllib.request
 
def get_soup(target_url):
    html = urllib.request.urlopen(target_url).read()
    soup = BeautifulSoup(html, 'html.parser')
    return soup
 
def extract_data(soup):
# 첫번째 페이지에서 책의 상세 웹페이지 주소를 추출하여 리스트에 저장
    book_page_urls = []
    for cover in soup.find_all('div', {'class':'detail'}):
        link = cover.select('a')[0].get('href')
        book_page_urls.append(link)
 
    # 메타 정보로부터 필요한 정보를 추출
    for index, book_page_url in enumerate(book_page_urls):
        soup = get_soup(book_page_url)
        title = soup.find('meta', {'property':'rb:itemName'}).get('content')
        author = soup.select('span.name a')[0].text
        image = soup.find('meta', {'property':'rb:itemImage'}).get('content')
        url = soup.find('meta', {'property':'rb:itemUrl'}).get('content')
        originalPrice = soup.find('meta', {'property': 'rb:originalPrice'}).get('content')
        salePrice = soup.find('meta', {'property':'rb:salePrice'}).get('content')
        print(index+1, title, author, image, url, originalPrice, salePrice)    
 
 
target_url = 'http://www.kyobobook.co.kr/bestSellerNew/bestseller.laf'
soup = get_soup(target_url)
extract_data(soup)
 
 
Colored by Color Scripter
cs

저작자표시 비영리 변경금지 (새창열림)

'개발 > Python 웹 크롤링' 카테고리의 다른 글

파이썬 웹 크롤링 연습 예제 #5 (0)	2020.03.02
파이썬 웹 크롤링 연습 예제 #4 (0)	2020.03.02
파이썬 웹 크롤링 연습 예제 #2 (0)	2020.03.02
웹 크롤링을 위한 파이썬 설치 및 환경 설정 (0)	2020.03.02
파이썬 웹 크롤링 연습 예제 #1 (1)	2020.03.01

« 2025/09 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

캘리의 꿈꾸는 세상

티스토리 뷰

파이썬 웹 크롤링 연습 예제 #3

'개발 > Python 웹 크롤링' 카테고리의 다른 글

티스토리툴바