본문 바로가기

코딩 연습/파이썬 크롤링29

크롬 드라이버 자동 다운로드 설치하는 파이썬 코드(Windows 11 기준) 직전 글에서 크롬 드라이버를 간단하게 자동 다운로드 설치가 되었는데, 그 코드가 Windows 11에서는 먹히지 않는 듯 하여 다시 구글에서 찾아보고 정리해봅니다. 크롬 브라우저 버전이 업데이트 되면 크롬 드라이버도 그에 맞는 버전을 설치해줘야 하는데, 이때 크롬 드라이버를 자동으로 설치가 되도록 관리해주는 라이브러리(webdriver_manager)가 있고 이것을 import 해줍니다, Windows 11에서 크롬 드라이버 자동 다운로드 설치 python에서 Chrome WebDriver를 관리해주는 라이브러는 webdriver_manager이며, 이 라이브러리의 설치 명령은 pip install webdriver_manager입니다. 윈도우 11에서 크롬 드라이버 자동 다운로드 설치하는 파이썬 코드는.. 2023. 11. 23.
크롬 드라이버 자동 설치, vs code로 selenium 실행해 보기 크롬 브라우저 버전 확인과 VS Code에서 selenium(셀레늄) 설치와 사용하는 방법, 그리고 자동 설치된 크롬드라이버의 위치를 찾아본 결과를 올려봅니다. 크롬 브라우저용 크롬드라이버 사용이 아주 쉬워졌네요. 아직도 조금은 불안한 점이 있다고는 하지만 설치가 자동으로 되니 엄청 편리합니다. 참고로, 아래 내용은 Windows 10 기준입니다. 크롬 브라우저 버전 확인하기 크롬 브라우저 버전 확인은 쉽습니다. 크롬 브라우저 우측 상단 점3개 부분을 클릭해서 "도움말 >> Chrome 정보" 클릭하면 버전을 확인할 수 있습니다. 또 다른 방법은 크롬 브라우저 주소 입력란에 "chrome://settings"라고 입력 후 엔터를 치면 크롬 브라우저 설정 화면으로 접속이 되고, 맨 하단에 있는 "Chrom.. 2023. 11. 22.
[파이썬 크롤링 연습] 가정용 보일러 인증제품 목록 수집 가정용 보일러 인증시스템 웹사이트의 가정용 보일러 인증제품 목록에 대해 파이썬 크롤링으로 수집하는 연습 코드를 올립니다. 목록 페이지는 148페이지이고 페이지당 10개 리스트가 있습니다. 가정용 보일러 인증제품 목록 웹 페이지 수집 분석 해당 페이지를 개발자도구로 확인했을 때 페이지 전환 부분의 파라미터(currentPage)만 변경되고 있었고, 그래서 페이지 번호만 증가시키면 리스트 수집이 가능했네요. 파이썬 크롤링 소스 코드 리스트 항목은 tr과 td 태그로 되어있어서 td 7개를 대상으로 추출하면 되었고, 각 페이지 리스트의 id 값이 순번으로 되어있어서 이 부분을 순증(id=f'itrdListItem{n}')시키면서 반복문으로 처리 인증일자 부분은 "보기" 팝업창에 있지만, 이 또한 td 태그이기.. 2023. 11. 8.
서울시 집수리닷컴 시공업체 추출 파이썬 크롤링 연습 서울시 집수리닷컴은 주거환경 개선을 위한 집수리 비용 보조 사업을 홍보하고 운영하는 웹 사이트인데, 이 사이트에 등록된 집수리 시공업체를 보면, 400여 개 시공업체들이 등록되어있다. 이 업체들을 파이썬 크롤링을 통해 추출하는 연습을 해봤다. 집수리 시공업체 정보 추출해보기 ▶ 집수리닷컴 시공 지원을 위해 등록한 시공 업체 추출 리스트 >> [파이썬 소스 코드] import requests from bs4 import BeautifulSoup url = 'https://jibsuri.seoul.go.kr/repair/entInfo/entList.do?pageIndex=1&sggCode=&cnstrctCode=05' header = { 'User-Agent':'Mozilla/5.0 (Windows NT 1.. 2023. 5. 14.
구분자로 연결된 문자열의 일부분을 추출하는 방법 파이썬으로 구분자를 주어 추출한 네이버 부동산 주소 텍스트 데이터에서 동명칭을 분리하여 추출하는 방법 파이썬으로 주소 분리 작업을 많이 하다 보면 구분자로 연결한 수십 수백 만 건의 텍스트 결과물에서 특정 부분을 추출하는 경우가 가끔 있다. 이때 엑셀로 변환 후에 추출할 수도 있지만, 엑셀의 행의 한계(row의 수가 104만개 정도)와 로딩 시간이나 함수 처리 시간이 너무 많이 걸리는 문제가 있다. 아래처럼 된 텍스트 결과물에서 그 중간에 있는 도로명주소와 괄호 안의 동 명칭을 추출해야 일이 있었는데, 그 아래처럼 코드를 짜서 실행해보니 잘 나왔다. juso = [ '1977.11.$서울특별시 구로구 고척동 97-3$서울특별시 구로구 경서로1길 14(고척동, 삼명아파트)$서울특별시 구로구 고척동 97-3.. 2023. 3. 25.
전원주택라이프 웹 사이트 크롤링 테스트 전원주택라이프 웹 사이트 구조는 특이하게도 html table로 만들어졌다. 파이썬으로 table 구조에 대한 크롤링 연습을 해봤다. 전원주택라이프 크롤링 테스트 전원주택 관련 공사업체, 제조업체, 판매업체, 서비스업체, 우수업체 목록이 약 3만여개 보유한 사이트. 크롤링 연습을 위해 개발자도구로 html 구조를 살펴보니 특이하게도 페이지가 table 태그로 만들어져 있고 각 table 태그의 각 element에 대한 class, id 등의 속성이 없어서 table 태그를 직접 핸들링해야 하는 불편이 있었음. 페이징 처리 부분을 for 문으로 순환하면서 request.get() 처리로 데이터를 불러올 수 있었고, encoding은 euc-kr로 처리하고, table에 대한 전체 count를 통해 추출할 .. 2023. 3. 25.
네이버 블로그 제목 리스트 추출해보기 네이버 블로그의 제목 리스트 전체를 추출하는 파이썬 크롤링 코드임. 블로그 아이디와 추출할 페이지수(10줄 단위 기준)를 입력하면 블로그 제목, 각 페이지 URL, 등록일을 추출하여 텍스트와 html table 형식으로 저장함 네이버 블로그 목록 전체 추출하기 본인의 블로그 아이디를 blog_id 변수에 대입하고, 함수 호출 시 인자로 블로그 목록의 페이지(네이버 블로그 목록 하단 페이지 번호의 맨 끝 번호)를 입력한 후 실행하면 된다. [파이썬 소스 코드] import requests from bs4 import BeautifulSoup import re, time, random from urllib import parse def naver_blog_list(list_page): blog_id = '본.. 2022. 8. 23.
네이버에서 도로명주소 지번주소 건물명칭 추출하기 도로명 주소(juso.go.kr)의 명칭을 네이버 검색에 입력하면 비슷하지만 다른 명칭이 나오는 경우가 있었다. 네이버의 명칭을 찾기 위해서 도로명 주소를 입력하면 플레이스 페이지로 연결되고, 여기에 명칭과 지번주소가 있다. 네이버 검색에서 "강원도 원주시 북원로2425번길 39"로 검색 시 위 이미지처럼 네이버 플레이스 페이지로 이동된 것을 볼 수 있는데, 여기서 파이썬을 활용하여 엑셀의 도로명주소를 읽고 그 주소를 검색한 후 "우편번호, 명칭, 지번주소"를 추출하여 텍스트로 저장해보자. 도로명주소로 우편번호, 명칭, 지번주소 추출하기 추출에 이용할 도로명주소가 있는 엑셀 샘플은 다음과 같다. [파이썬 소스 코드] import requests from bs4 import BeautifulSoup imp.. 2022. 7. 18.
네이버 쇼핑 상품 리스트 추출 후 엑셀 저장 네이버 쇼핑에서 검색어를 입력하면 상품명, 가격, 카테고리, 리뷰건수, 구매건수, 등록월, 업체명, 등급, 그리고 쇼핑몰 카탈로그 내의 쇼핑몰 최저가 리스트까지 추출하고 엑셀로 저장하는 파이썬 크롤링 연습 코드임 네이버 쇼핑몰 상품 리스트 추출 및 엑셀 저장하기 [파이썬 소스 코드] from selenium import webdriver from selenium.webdriver.common.by import By import time, random import openpyxl def chrome_driver(): options = webdriver.ChromeOptions() # options.add_argument("headless") # 웹 브라우저를 시각적으로 띄우지 않는 headless chro.. 2022. 7. 12.
[파이썬 크롤링] 네이버쇼핑 카테고리 추출해보기 네이버 쇼핑에 상품 등록 시 다른 쇼핑몰의 카테고리를 알고 싶을 때 여러 대표 키워드를 입력하여 실행하면 카테고리를 일괄적으로 추출할 수 있도록 하는 코드임 네이버 쇼핑에서 키워드로 카테고리 추출하기 selenium과 크롬 드라이버를 이용하여 추출하기 때문에 크롬 드라이버 운영 환경을 만들고 실행한다. 크롬 브라우저 URL 입력란에 "chrome://settings/help" 입력 후 엔터를 치면 크롬 브라우저(Chrome)의 현재 버전(버전 103.0.5060.134(공식 빌드) (64비트) 라고 가정)을 확인할 수 있다. 크롬 드라이버(ChromeDriver) 다운로드 : https://chromedriver.chromium.org/downloads ChromeDriver 103.0.5060.134 .. 2022. 7. 11.