본문 바로가기

코딩 연습/파이썬 크롤링29

네이버 쇼핑 상세페이지 태그 추출 네이버 쇼핑 상세페이지 내에 있는 태그를 추출하는 연습 코드. 스마트스토어에 상품 등록 시 상세페이지 내에 태그를 입력할 때 어떤 키워드를 사용하는지 체크할 때 유용할 것 같아서 만들어 봄 스마트스토어 상품 등록 시 상세페이지 내 키워드 또는 태그 입력 시 유용 [파이썬 소스 코드] import requests from bs4 import BeautifulSoup import time import random def nshopping_detail_tag(keywords): url = f'https://search.shopping.naver.com/search/all?query={keywords}&frm=NVSHATC' response = requests.get(url) soup = BeautifulSou.. 2022. 7. 7.
네이버 쇼핑 관련 자동완성어, 연관검색어, 추천키워드 추출 파이썬 크롤링으로 네이버 쇼핑 관련 자동완성어, 연관검색어, 추천키워드 추출해본다. 여러 키워드를 리스트로 만들어서 각 항목에 적용시킨 후, 텍스트나 엑셀로 저장하도록 만들면 하나의 키워드 추출 솔루션이 될 수 있다. 네이버 쇼핑 자동완성어 추출 마우스 우클릭하여 새 텝에서 열면 URL이 "https://shopping.naver.com/api/modules/gnb/auto-complete?keyword=테"로 표시된다. 이 URL에서 "keyword=테"를 텐트로 하면 아래 이미지처럼 텐트 검색어에 대한 네이버쇼핑 자동완성어가 보인다. {"query":["텐트","텐트","텐트"],"items":[[],[[["원터치텐트"],["4689"],["6446"],["N"]],[["텐트"],["2944"],[".. 2022. 7. 3.
네이버 연관검색어 추출하기 [파이썬 크롤링] 아래 이미지처럼 네이버 검색 결과 페이지 하단에 있는 연관검색어 10개 키워드를 파이썬 크롤링으로 추출하는 코드이다. PC와 모바일 페이지 html 소스코드가 다르기 때문에 2가지 형태 모두 추출할 수 있도록 작성했다. 네이버 검색 결과 페이지에서 연관검색어 추출해보기 [파이썬 소스 코드] import requests from bs4 import BeautifulSoup ##네이버 연관검색어 def naver_related_keyword(keyword): ## 모바일 환경에서 url = 'https://m.search.naver.com/search.naver?query=' + keyword headers = {'User-Agent': ('Mozilla/5.0 (Windows NT 10.0; Win64; .. 2022. 7. 2.
네이버 검색 키워드 자동완성어 추출 네이버에서 검색어 입력 시 보이는 관련 검색어(자동완성어)를 추출하는 파이썬 크롤링 코드임. html 소스코드 보기로 봐도 보이지 않는 이유는 동적으로 움직이기 때문이며, 이런 경우에는 개발자 도구에서 해당 부분에 대해 코드를 확인해봐야 함 네이버 자동완성어 추출해보기 네이버에서 아래처럼 검색어를 입력하면 노출되는 관련 검색어들을 자동완성어라 하는데, 이 부분에 대한 추출하는 방법은 다음과 같다. 크롬 등의 브라우저에서 개발자도구(F12) 창을 열고, Network 탭 밑에 있는 All 또는 JS 부분을 클릭하고 좌측의 Name 부분에서 ac?q=%로 시작하는 것들을 클릭하여 위 이미지 내용과 같은 검색어가 보이는 것(아래 이미지 참고)을 찾아서 드래그하면 된다. 해당 내용은 json 형태의 source.. 2022. 6. 29.
파이썬 크롤링 기초 예제 [네이버 지식인 질문 건 답변] 구글 메인 페이지의 구글 로그 이미지 추출하는 방법, 임의의 html 코드에서 태그의 속성값 추출하여 리스트로 만드는 방법 파이썬 크롤링 연습하기 [구글 로고 이미지 url 추출] import requests from bs4 import BeautifulSoup import urllib.parse header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36' } url = 'https://www.google.com/' resp = requests.get(url, headers=hea.. 2022. 6. 16.
쇼핑몰 상품 2가지 옵션 조합 크롤링하기 [네이버 지식인 질문 내용 답변] 쇼핑몰에서 2가지 옵션인 색상(블랙, 핑크)과 사이즈(블랙: S, M, L 핑크: S, M)가 있고 색상을 선택하면 그에 따라 사이즈가 동적으로 바뀌는 경우, 색상과 사이즈의 조합을 추출하는 코드임 쇼핑몰 2가지 옵션에 대한 조합 크롤링 [파이썬 소스 코드] from selenium import webdriver from selenium.webdriver.chrome.service import Service as ChromeService from selenium.webdriver.chrome.options import Options from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriv.. 2022. 6. 15.
네이버 블로그의 전체 페이지 저장하기(방법 설명) 하나의 네이버 아이디로 작성한 블로그 전체 페이지에 대해 콘텐츠를 저장하려면 글 전체보기의 목록에서 각 리스트의 블로그 주소(URL)를 추출하고, 해당 블로그 페이지를 순환하면서 카테고리, 제목, 본문 내용(글, 이미지)을 저장하면 된다. 아래 내용은 올해 초 창호 전문 기업인 (주) 케스코라는 회사에 다니는 직원(옛 동료)의 부탁으로 그 회사의 네이버 블로그(2,100여 개의 포스팅)를 내용을 추출하여 저장하는 코드를 짜본 경험을 토대로 작성한 내용이다. 그 많은 블로그 페이지를 왜 받아야 하는지 물어보니, 새로 만드는 홈페이지와 블로그 내용을 연동시키기 위해 블로그 내용 분석이 필요하다고 했다. 파이썬으로 하나의 네이버 블로그 페이지에 대해서만 이미지와 글, 그리고 html 코드를 가져와서 저장하는 .. 2022. 6. 13.
문자로 된 티스토리 블로그 주소(포스트 주소) 파이썬 크롤링 방법 티스토리 블로그 글의 주소는 숫자와 문자로 설정할 수 있다. 제목이 문자로 된 블로그 주소에 대해 파이썬으로 크롤링하는 방법을 알아보려고 한다. 파이썬으로 문자로 된 블로그 주소의 제목 등 크롤링해보기 문자로 된 티스토리 블로그 주소는 "https://블로그아이디.tistory.com/entry/글제목" 형식으로 표시가 된다. 티스토리 블로그의 제목을 추출하기 위해 "Category"(또는 "분류 전체보기")를 클릭하던지 아니면 직접 "https://블로그아이 디.tistory.com/category"를 URL로 입력하면 하단의 페이지 번호(pagination)와 함께 블로그 글 목록(리스트)을 볼 수 있다. 개발자 도구(F12)로 그 목록 부분을 확인해보면 태그에 블로그 글이 링크되어있다. 해당 링크를.. 2022. 6. 9.
스마트 스토어 데이터 크롤링하여 sqlite3에 저장하기 [파이썬 크롤링] 네이버 쇼핑에 노출되는 스마트 스토어의 상품 데이터를 크롤링 후 sqlite3 db에 저장하는 방법을 정리한다. Python으로 크롤링한 데이터를 DB(sqlite3)에 저장해 보기 1. 스마트 스토어 쇼핑몰 상품 스크래핑하기 from os import execlpe import requests from bs4 import BeautifulSoup import json, re import pandas as pd import sqlite3 def nshopping_sstore(uid): url = f'https://smartstore.naver.com/{uid}' headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A.. 2022. 6. 2.
다음 뉴스 기사 제목 본문 크롤링 후 텍스트 저장 [파이썬 크롤링] 네이버 지식인에 올라온 질문 '다음 랭킹 뉴스 기사 제목 본문 크롤링 후 텍스트 파일에 저장하는 법'에 대해 파이썬으로 작성해보았다. 다음 랭킹 뉴스 기사 제목, 본문 크롤링 후 텍스트 파일로 저장 [파이썬 소스 코드] import requests from bs4 import BeautifulSoup import os def daum_news(): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'} url = f'https://news.daum.net/' response = reque.. 2022. 6. 1.