본문 바로가기
코딩 연습/파이썬 크롤링

전원주택라이프 웹 사이트 크롤링 테스트

by good4me 2023. 3. 25.

goodthings4me.tistory.com

전원주택라이프 웹 사이트 구조는 특이하게도 html table로 만들어졌다. 파이썬으로 table 구조에 대한 크롤링 연습을 해봤다. 

 

 

전원주택라이프 크롤링 테스트

전원주택 관련 공사업체, 제조업체, 판매업체, 서비스업체, 우수업체 목록이 약 3만여개 보유한 사이트.

크롤링 연습을 위해 개발자도구로 html 구조를 살펴보니 특이하게도 페이지가 table 태그로 만들어져 있고 각 table 태그의 각 element에 대한 class, id 등의 속성이 없어서 table 태그를 직접 핸들링해야 하는 불편이 있었음.

페이징 처리 부분을 for 문으로 순환하면서 request.get() 처리로 데이터를 불러올 수 있었고,

encoding은 euc-kr로 처리하고,

table에 대한 전체 count를 통해 추출할 table 위치를 잡는데 enumerate() 함수를 사용하니 idx 32번째 table이 업체 목록 시작 부분이었음.

페이지마다 10개 목록이 있어서 해당 table의 tr count에서 짝수 부분에 대해서만 처리(n % 2 == 0 and n <= 20)

텍스트 출력 결과에서 각 항목간 공백이 너무 많아서 repr()로 확인해보니 \xa0, &nbsp;, \t, \r, \n 등이 있었음

re.sub().strip().replace() 사용하고, 다시 공백 드래그를 통해 replace()를 해서 공백을 모두 정리하여 크롤링 성공함.

 

good4me.co.kr

 

댓글