본문 바로가기

코딩 연습/파이썬 크롤링29

온채널 도매 사이트 명예의전당 우수상품 리스트 쇼핑몰 도매사이트 온 채널의 명예의 전당(매년 많이 팔린 상품)에 있는 우수상품 리스트를 파이썬으로 크롤링하는 코드이다. 작년에 짜 놓은 코드에서 오류 나는 부분만 수정해서 포스팅함 온채널 도매사이트 우수상품 크롤링 [파이썬 소스 코드] import requests from bs4 import BeautifulSoup as bts4 from urllib.parse import urljoin import time import random import openpyxl import os def onch3_halloffame(page): onch3 = 'https://www.onch3.co.kr' ## 폴더 생성 if not os.path.exists('./onch3'): os.makedirs('./onch3'.. 2022. 5. 24.
구글 이미지 검색 후 크롤링 '용산 차막힘' 관련 이미지를 검색하다가 구글 이미지 검색 후 다운로드하는 파이썬 크롤링 코드를 만들어 보기로 했다. 2021.10월에 이미지 구글링 관련 포스팅 글(구글에서 원하는 이미지 다운로드)에 이은 두번째 크롤링 코드다. [파이썬 크롤링] 구글 이미지 다운로드 이전 포스팅과 차이점은 크롬 브라우저의 버전 부분에 맞는 selenium 크롬 웹 드라이버를 자동으로 설치되도록 모듈을 적용하였고, selenium 업그레이드로 html 요소 추출하는 코드를 버전에 맞게 적용하였다. 추출할 이미지 숫자를 지정하면 그 숫자까지만 추출한다. 1. 페이지 스크롤링 안 한 상태에서 이미지 추출하는 파이썬 코드 from selenium import webdriver from selenium.webdriver.chr.. 2022. 5. 20.
네이버 인플루언서 탭에서 인플루언서의 이름과 팬 숫자 추출하기 네이버에서도 영향력 있는 블로거들을 인플루언서라는 별도의 공간(탭)을 만들어 운영할 정도인데, 네이버 인플루언서 탭에서 인플루언서의 이름과 팬 숫자를 추출하는 코드를 파이썬으로 만들어봤다. 인플루언서 마케팅 관련 네이버 인플루언서와 팬 숫자 추출해보기 네이버 인플루운서 추출은 requests 모듈로도 일부 가능하지만, 스크롤을 통해 추가되는 전체 인플루언서를 추출하려면 selenium을 사용해야 한다. (단, 이 경우에는 스크롤 기능이 필요함) [파이썬 소스 코드] from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Opti.. 2022. 5. 18.
네이버 뉴스 크롤링 - 기사 제목과 링크(URL) 추출 네이버에서 기사를 검색하기 위해 키워드를 입력하고 뉴스 탭을 클릭한 경우, 관련도순으로 나오는 1페이지 기사를 추출하는 크롤링 코드임. 기사 일자와 기사 제목, 그리고 기사 원문 링크 주소(URL)를 추출하여 텍스트 파일로 저장한다. 네이버 뉴스 기사 제목과 링크 주소(URL) 추출 [파이썬 크롤링] [파이썬 소스 코드] from bs4 import BeautifulSoup import requests from datetime import datetime def naver_news(keyword): header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/10.. 2022. 5. 16.
티스토리 블로그 내 이미지 다운로드 파이썬 크롤링으로 티스토리 블로그 내에 있는 이미지 다운로드 - 개별 블로그 페이지에 있는 이미지 원본을 다운로드할 수 있는 소스 코드임 티스토리(tistory) 블로그 이미지 다운로드해주는 파이썬 코드 ※ 티스토리 블로그 이미지와 글 내용까지 다운로드하는 프로그램 [파이썬 소스 코드] import requests from bs4 import BeautifulSoup from urllib import request from PIL import Image import os headers = { 'user_agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Saf.. 2022. 5. 10.
네이버 뉴스 감정 표시 숫자 추출하기 네이버 뉴스 페이지 하단에 있는 감정 표시 '좋아요, 훈훈해요, 슬퍼요, 화나요, 후속기사원해요'에 대한 숫자를 추출할 때 requests-html 모듈을 활용해서 크롤링을 해왔다. 네이버 뉴스 감정 표시 숫자에 대한 파이썬 크롤링 개발자 도구(F12)에서는 숫자 값이 보이지만 data-type이나 data-log를 보니 js로 처리되는 것으로 보인다. 바로 위 에서 확인. 이런 경우, 페이지 소스 보기로는 숫자가 보이지 않는다. 이렇게 동적인 페이지에 대해 크롤링 시 selenium을 사용하는데... 이번에는 다른 방법으로 해보았다. [파이썬 소스 코드] from bs4 import BeautifulSoup import time from requests_html import HTMLSession hea.. 2022. 4. 27.
네이트 실시간검색어 네이트 실시간검색어 내역이 필요하여 파이썬 크롤링으로 추출하는 코드를 작성해보았다. 네이트의 경우 "실시간 이슈 키워드"라는 명칭으로 서비스가 되고 있고, 내용이 동적으로 움직인다. 네이트 실시간검색어 추출해보기 [파이썬 크롤링] 네이트의 "실시간 이슈 키워드" 추출은 메인 화면에서 1차적으로 키워드 1개(상위 1번째)만 추출(javascript:newsBox.clickSearchKeyword) 후 링크되는 url에 해당 텍스트를 파라미터 값으로 하여 2차 추출이 필요하다. [파이썬 소스 코드] import requests from bs4 import BeautifulSoup import time headers = { 'user_agent' : 'Mozilla/5.0 (Windows NT 10.0; Wi.. 2022. 4. 25.
크롤링 - 교보문고 도서 리스트 추출하기 교보문고 검색어로 나온 도서 리스트에 대해 책 제목, 기본 가격, 판매 가격, 도서 썸네일 이미지 링크 주소, 그리고 상세페이지 링크 주소를 파이썬 크롤링으로 추출하는 연습을 해본다. 파이썬 크롤링 - 교보문고 검색 도서 리스트 교보문고 검색어와 추출 희망 페이지수를 입력받는다. 검색 결과로 나온 전체 페이지수를 찾아서 for 문에 1페이지부터 전체 페이지수를 대상으로 순환하게 하되, 추출 희망 페이지수가 전체 페이지수보다 작으면 그 숫자만큼만 추출하고 중지(break), 크면 전체 페이지수를 대상으로 추출한다. 추출하는 항목은 책 제목, 책 가격(기본, 세일), 책 썸네일 이미지 링크, 그리고 상세페이지 링크 주소를 대상으로 한다. [크롤링 소스 코드] import requests from bs4 im.. 2022. 4. 22.
스마트스토어 상품 리뷰 추출하기 - 파이썬 크롤링 연습 네이버 지식in에서 질문한 내용을 답해준 내용으로, 네이버 쇼핑에 노출되는 스마트 스토어 상품의 고객 리뷰(페이지당 20개)에 대해 파이썬 크롤링으로 추출하는 방법을 간단하게 포스팅해보려 한다. 스마트스토어 상품 리뷰를 크롤링으로 추출해하기 ※ 기본 틀만 언급하여 전체 내용을 나오도록 하는 방법만 소개하며, 세부적인 내역(평점, 작성일, 상품명, 리뷰글 등)은 자체적으로 해결하도록 함 ※ 또한 추출 방법은 질문을 selenium 사용법으로 했기 때문에 selenium으로 해결하는 방법을 설명함 파이썬 크롤링 소스코드는 다음과 같다. from selenium import webdriver from selenium.webdriver.chrome.service import Service as ChromeSer.. 2022. 4. 15.