goodthings4me.tistory.com
가정용 보일러 인증시스템 웹사이트의 가정용 보일러 인증제품 목록에 대해 파이썬 크롤링으로 수집하는 연습 코드를 올립니다. 목록 페이지는 148페이지이고 페이지당 10개 리스트가 있습니다.
웹 페이지 수집 분석
해당 페이지를 개발자도구로 확인했을 때 페이지 전환 부분의 파라미터(currentPage)만 변경되고 있었고, 그래서 페이지 번호만 증가시키면 리스트 수집이 가능했네요.
파이썬 크롤링 소스 코드
- 리스트 항목은 tr과 td 태그로 되어있어서 td 7개를 대상으로 추출하면 되었고,
- 각 페이지 리스트의 id 값이 순번으로 되어있어서 이 부분을 순증(id=f'itrdListItem{n}')시키면서 반복문으로 처리
- 인증일자 부분은 "보기" 팝업창에 있지만, 이 또한 td 태그이기 때문에 같은 방식으로 추출하되 속성 value 값을 가져옴(다만, 값이 없는 경우 에러가 발생하여 예외처리함)
- 항목들을 구분자($)로 분리하여 f-스트링으로 묶어서 텍스트 파일로 저장함
※ 파일 다운로드
'코딩 연습 > 파이썬 크롤링' 카테고리의 다른 글
크롬 드라이버 자동 다운로드 설치하는 파이썬 코드(Windows 11 기준) (1) | 2023.11.23 |
---|---|
크롬 드라이버 자동 설치, vs code로 selenium 실행해 보기 (0) | 2023.11.22 |
서울시 집수리닷컴 시공업체 추출 파이썬 크롤링 연습 (0) | 2023.05.14 |
구분자로 연결된 문자열의 일부분을 추출하는 방법 (0) | 2023.03.25 |
전원주택라이프 웹 사이트 크롤링 테스트 (0) | 2023.03.25 |
댓글