goodthings4me.tistory.com
네이트 실시간검색어 내역이 필요하여 파이썬 크롤링으로 추출하는 코드를 작성해보았다. 네이트의 경우 "실시간 이슈 키워드"라는 명칭으로 서비스가 되고 있고, 내용이 동적으로 움직인다.
네이트 실시간검색어 추출해보기 [파이썬 크롤링]
네이트의 "실시간 이슈 키워드" 추출은 메인 화면에서 1차적으로 키워드 1개(상위 1번째)만 추출(javascript:newsBox.clickSearchKeyword) 후 링크되는 url에 해당 텍스트를 파라미터 값으로 하여 2차 추출이 필요하다.
[파이썬 소스 코드]
import requests
from bs4 import BeautifulSoup
import time
headers = {
'user_agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36'
}
_url = f'https://www.nate.com/?f=news' # 네이트 실시간 이슈 키워드
r1 = requests.get(_url, headers=headers)
time.sleep(1)
if r1.ok:
soup = BeautifulSoup(r1.text, 'html.parser')
keyword = soup.select_one('#olLiveIssueKeyword > li:nth-child(1) > a > span.txt_rank')
# print(keyword.text)
url = f'https://news.nate.com/search?q={keyword.text.strip()}'
r2 = requests.get(url, headers=headers)
soup2 = BeautifulSoup(r2.text, 'html.parser')
a_tags = soup2.select('#search-option > form:nth-child(1) > fieldset > div.issue-kwd > span.kwd-list > a')
for a_tag in a_tags:
print(a_tag.text)
[실행 결과]
이외수
문 대통령 검수완박
지민 건보료 체납
버스 파업
이은해 다이빙 영상
사랑의 꽈배기
손석희
으라차차 내 인생
군검사 도베르만
우리들의 블루스
▶ 실시간 검색어 찾아주는 프로그램
'코딩 연습 > 파이썬 크롤링' 카테고리의 다른 글
네이버 뉴스 크롤링 - 기사 제목과 링크(URL) 추출 (0) | 2022.05.16 |
---|---|
티스토리 블로그 내 이미지 다운로드 (0) | 2022.05.10 |
네이버 뉴스 감정 표시 숫자 추출하기 (0) | 2022.04.27 |
크롤링 - 교보문고 도서 리스트 추출하기 (0) | 2022.04.22 |
스마트스토어 상품 리뷰 추출하기 - 파이썬 크롤링 연습 (2) | 2022.04.15 |
댓글