반응형
1. G마켓 크롤링
지난 번 웹 크롤링을 통해 올리브영의 랭킹 정보를 긁어 모았고, 이번에는 G 마켓의 랭킹 정보를 크롤링 해 보려 한다.
2. G마켓 랭킹
https://category.gmarket.co.kr/listview/L100000005.aspx
위 주소로 들어가면 아래 처럼 G마켓에서 잘 팔리는 상품들의 랭킹 정보를 볼 수 있다.
3. 파이썬 코드
import pandas as pd
import requests
from bs4 import BeautifulSoup
url = requests.get('https://www.gmarket.co.kr/n/best?jaehuid=200011415&viewType=C&largeCategoryCode=100000005')
html = BeautifulSoup(url.text)
products = []
for i in html.find_all('div',class_='thumb'):
products.append(i.find('img')['alt']) # 이미지 태그의 'alt' 속성에 상품 이름이 들어 있다
price = []
for i in html.find_all('div',class_='s-price'):
price.append(i.text.split('할인가')[1].split('원')[0])
df = pd.DataFrame({'상품명':products,'가격':price})
df
가격 태그 정보를 좀 더 분석해보면 깔끔하게 가져올 수 있을 것 같다는 생각이 드는데 좀 더 공부해야겠다.
반응형
'Python, R 분석과 프로그래밍 > 크롤링' 카테고리의 다른 글
[크롤링] Selenium 으로 네이버 로그인 하기 (0) | 2023.08.05 |
---|---|
[파이썬] 주식 정보 크롤링 하기, 삼성전자 사례를 중심으로 (0) | 2023.08.05 |
[크롤링] 파이썬으로 네이버 뉴스 크롤링 하기 - 7줄이면 충분합니다 (0) | 2023.07.30 |
[크롤링] 파이썬으로 네이버 뉴스 크롤링 하기 - 여러 뉴스를 한번에 (0) | 2023.07.30 |
[크롤링] 파이썬으로 네이버 뉴스 크롤링하기 - 뉴스 한개 (0) | 2023.07.30 |