반응형
1. G마켓 크롤링
지난 번 웹 크롤링을 통해 올리브영의 랭킹 정보를 긁어 모았고, 이번에는 G 마켓의 랭킹 정보를 크롤링 해 보려 한다.
[Python] 웹 크롤링 - 올리브영 랭킹 크롤링
0. 웹 크롤링이 뭐야? 크롤링은 인터넷 상에서 웹 페이지를 순회하고, 웹 사이트에서 정보를 추출하는 자동화된 프로세스를 말합니다. 크롤링은 웹 크롤러 또는 스파이더라고 불리는 소프트웨어
kmrho1103.tistory.com
2. G마켓 랭킹
https://category.gmarket.co.kr/listview/L100000005.aspx
G마켓-화장품/향수
컨실러란? 기미,잡티,주근깨,여드름흔적등을 감쪽같이 커버하여 깨끗한피부연출을 해주는 제품.국소부위용과 얼굴전체커버용 닫기
category.gmarket.co.kr
위 주소로 들어가면 아래 처럼 G마켓에서 잘 팔리는 상품들의 랭킹 정보를 볼 수 있다.
3. 파이썬 코드
import pandas as pd
import requests
from bs4 import BeautifulSoup
url = requests.get('https://www.gmarket.co.kr/n/best?jaehuid=200011415&viewType=C&largeCategoryCode=100000005')
html = BeautifulSoup(url.text)
products = []
for i in html.find_all('div',class_='thumb'):
products.append(i.find('img')['alt']) # 이미지 태그의 'alt' 속성에 상품 이름이 들어 있다
price = []
for i in html.find_all('div',class_='s-price'):
price.append(i.text.split('할인가')[1].split('원')[0])
df = pd.DataFrame({'상품명':products,'가격':price})
df
가격 태그 정보를 좀 더 분석해보면 깔끔하게 가져올 수 있을 것 같다는 생각이 드는데 좀 더 공부해야겠다.
반응형
'Python, R 분석과 프로그래밍 > 크롤링' 카테고리의 다른 글
[크롤링] Selenium 으로 네이버 로그인 하기 (0) | 2023.08.05 |
---|---|
[파이썬] 주식 정보 크롤링 하기, 삼성전자 사례를 중심으로 (0) | 2023.08.05 |
[크롤링] 파이썬으로 네이버 뉴스 크롤링 하기 - 7줄이면 충분합니다 (0) | 2023.07.30 |
[크롤링] 파이썬으로 네이버 뉴스 크롤링 하기 - 여러 뉴스를 한번에 (0) | 2023.07.30 |
[크롤링] 파이썬으로 네이버 뉴스 크롤링하기 - 뉴스 한개 (0) | 2023.07.30 |