'지마켓'에 해당되는 글 1건

  1. 2023.09.23 [Python] 웹 크롤링 - G마켓 랭킹 크롤링
반응형

1. G마켓 크롤링

지난 번 웹  크롤링을 통해 올리브영의 랭킹 정보를 긁어 모았고, 이번에는 G 마켓의 랭킹 정보를 크롤링 해 보려 한다.

https://kmrho1103.tistory.com/entry/Python-%EC%9B%B9%ED%81%AC%EB%A1%A4%EB%A7%81-%EC%98%AC%EB%A6%AC%EB%B8%8C%EC%98%81-%EB%9E%AD%ED%82%B9-%ED%81%AC%EB%A1%A4%EB%A7%81

 

[Python] 웹 크롤링 - 올리브영 랭킹 크롤링

0. 웹 크롤링이 뭐야? 크롤링은 인터넷 상에서 웹 페이지를 순회하고, 웹 사이트에서 정보를 추출하는 자동화된 프로세스를 말합니다. 크롤링은 웹 크롤러 또는 스파이더라고 불리는 소프트웨어

kmrho1103.tistory.com

 

2. G마켓 랭킹

https://category.gmarket.co.kr/listview/L100000005.aspx

 

G마켓-화장품/향수

컨실러란? 기미,잡티,주근깨,여드름흔적등을 감쪽같이 커버하여 깨끗한피부연출을 해주는 제품.국소부위용과 얼굴전체커버용 닫기

category.gmarket.co.kr

위 주소로 들어가면 아래 처럼 G마켓에서 잘 팔리는 상품들의 랭킹 정보를 볼 수 있다.

 

3. 파이썬 코드

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = requests.get('https://www.gmarket.co.kr/n/best?jaehuid=200011415&viewType=C&largeCategoryCode=100000005')
html = BeautifulSoup(url.text)

products = []
for i in html.find_all('div',class_='thumb'):
    products.append(i.find('img')['alt']) # 이미지 태그의 'alt' 속성에 상품 이름이 들어 있다
    
price = []
for i in html.find_all('div',class_='s-price'):
    price.append(i.text.split('할인가')[1].split('원')[0])
    
df = pd.DataFrame({'상품명':products,'가격':price})
df

 

가격 태그 정보를 좀 더 분석해보면 깔끔하게 가져올 수 있을 것 같다는 생각이 드는데 좀 더 공부해야겠다.

 

 

 

 

 

반응형
Posted by 마르띤
,