네이버 뉴스 크롤링을 계속해서 해보려 한다. 이 번에는 여러 페이지, 그러니까 검색 결과 페이지를 1, 2, 3이렇게 늘려가며 여러 페이지의 글을 크롤링 하는 프로젝트이다.
아래 링크는 먼저 작성한 글로써, 한 페이지에 나오는 여려개 뉴스를 크롤링 하는 내용이다. 크게 어렵지 않은 짧은 코딩이니 따라하는데 크게 어렵지는 않을 것이다.
이전 크롤링 방식을 통해서 1 페이지에 나오는 여러 네이버 뉴스를 한 번에 크롤링 해 보았고, 이 번에는 1~5페이지 네이버 뉴스를 모두 크롤링 해보려 한다. 전체 크롤링 코드는 아래와 같다. 전체 7줄의 짧은 코드로 네이버 뉴스의 많은 페이지를 크롤링 할 수 있다. 순서대로 보면, 패키지를 불러오고, url을 읽은 다음 태그 정보를 보고 뉴스 제목을 긁어오는 순서이다.
1
2
3
4
5
6
7
8
9
10
|
import requests
from bs4 import BeautifulSoup
for n in range(1,52,10):
url = requests.get(f'https://search.naver.com/search.naver?where=news&sm=tab_pge&query=%EC%97%90%EC%BD%94%ED%94%84%EB%A1%9C&sort=0&photo=0&field=0&pd=0&ds=&de=&cluster_rank=60&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:all,a:all&start={n}')
html = BeautifulSoup(url.text)
for i in html.find_all('a',class_='news_tit'):
print(i.text)
|
cs |
코드가 길지 않아 아주 자세한 설명이 필요한 건 아니지만, 상세 코드를 보면 아래와 같다.
for 문 반복문으로 여러 뉴스를 모아온다.
for n in range(1,52,10):
url = requests.get(f'https://search.naver.com/search.naver?where=news&sm=tab_pge&query=%EC%97%90%EC%BD%94%ED%94%84%EB%A1%9C&sort=0&photo=0&field=0&pd=0&ds=&de=&cluster_rank=60&mynews=0&office_type=0&office_section_code=0&news_office_checked=&nso=so:r,p:all,a:all&start={n}')
html = BeautifulSoup(url.text)
- http:// ~ 뉴스 주소 앞에 format 을 입력하기 위해 f를 입력
- 주소의 페이지 부분에 넣을 format 자리에 {n} 입력
- page 넘버가 1, 11, 21 이렇게 10 단위로 커지므로, range(1,52,10)을 적용
처음 format의 f을 잘 몰랐을 때 어려웠는데, 코드를 이해한 이후로는 정말 자주 사용하고 있는 내용이다. 모를 때는 따라쳐보는 것이 가장 좋은 듯하다. 파이썬 명언 중 백문이불여일타가 괜히 있는게 아닌 것 같다.
for문으로 태그 정보 불러오기
for i in html.find_all('a',class_='news_tit'):
print(i.text)
태그 정보를 읽어낸 후 for문으로 반복 적용하여 text를 긁어내는 과정이다. 이 짧은 코드 몇 줄만 따라하면 네이버 뉴스 크롤링도 어렵지 않게 쉽게 따라할 수 있을 것이다.
for문에 대해 별도 글을 작성하겠지만, 간단하게 예시를 들면 아래와 같다. 간단한 숫자 리스트를 반복하며 출력하는 예시이다:
numbers = [1, 2, 3, 4, 5]
for number in numbers:
print(number)
위 코드에서 numbers 리스트의 각 요소를 순서대로 number 변수에 할당하여 반복문을 실행하면서 각 숫자가 출력된다. 또 다른 예시로, 문자열 리스트를 반복하며 각 문자열의 길이를 출력하는 코드는 아래와 같다:
fruits = ['apple', 'banana', 'cherry', 'date']
for fruit in fruits:
print(f"The length of '{fruit}' is {len(fruit)}")
이렇게 for문을 사용하면 리스트, 튜플, 문자열 등의 객체를 순회하며 각 항목을 처리할 수 있다. for문을 사용하여 반복 작업을 수행하면 코드를 간결하게 유지하고 반복적인 작업을 쉽게 처리할 수 있다.
for문은 프로그래밍에서 반복 작업을 처리하는 중요한 도구 중 하나이다.
- 반복 작업 처리: 많은 작업은 반복적으로 수행되어야 한다. for문을 사용하여 데이터나 작업을 반복적으로 처리할 수 있어서 코드를 간결하게 유지할 수 있다.
- 코드의 가독성: for문을 사용하면 반복 작업의 로직을 명확하게 표현할 수 있다. 이로 인해 코드의 가독성이 향상되며, 다른 개발자들이 코드를 이해하기 쉬워진다.
- 반복 횟수 지정: 반복 작업을 일정한 횟수만큼 수행해야 할 때 range() 함수와 함께 for문을 사용하여 반복 횟수를 지정할 수 있다.
- 파일 처리: 파일의 각 줄을 읽어오거나 파일에 쓰는 작업에서도 for문을 활용할 수 있다.
이러한 이유로 for문은 프로그래밍에서 핵심적인 역할을 하며, 프로그램을 효율적으로 작성하고 유지 관리하는 데 도움을 준다.
'Python, R 분석과 프로그래밍 > 크롤링' 카테고리의 다른 글
[크롤링] Selenium 으로 네이버 로그인 하기 (0) | 2023.08.05 |
---|---|
[파이썬] 주식 정보 크롤링 하기, 삼성전자 사례를 중심으로 (0) | 2023.08.05 |
[크롤링] 파이썬으로 네이버 뉴스 크롤링 하기 - 여러 뉴스를 한번에 (0) | 2023.07.30 |
[크롤링] 파이썬으로 네이버 뉴스 크롤링하기 - 뉴스 한개 (0) | 2023.07.30 |
[Python] 웹 크롤링 - 올리브영 랭킹 크롤링 (0) | 2023.07.21 |