코딩 연습/코딩배우기
-
juso.go.kr 도로명 주소, 엑셀로 분리하는 방법을 파이썬으로 해보기코딩 연습/코딩배우기 2022. 2. 9. 21:50
juso.go.kr의 도로명 주소를 보면, 형태가 4가지로 나오는데 '건물번호'까지만 있는 것과 괄호 안에 동명칭, 건물 명칭이 있는 것, 그리고 괄호 안에 동명칭만 있거나 동명칭은 없고 건물 명칭만 있는 것 등이다. 도로명 주소를 엑셀을 이용해 주소를 구분(분리)하는 방법도 있지만, 파이썬의 openpyxl 라이브러리 사용하여 빠르게 분리하는 방법도 있다. 파이썬으로 도로명 주소 분리해보기 먼저, 괄호 안에 동명칭이나 건물 명칭이 있는 것은 엑셀로 쉽게 분리할 수 있으니 그 부분은 분리했다고 하고, 건물번호까지 각각을 분리하는 방법을 코드로 구현해보았다. ☞ "강원도 속초시 미시령로3359번길 9(교동, 현대아파트)"에서 (교동, 현대아파트) 부분은 괄호 부분을 find() 함수로 찾아서 mid() 등..
-
juso.go.kr에서 파이썬으로 도로명주소 등 추출코딩 연습/코딩배우기 2022. 2. 2. 21:31
juso 사이트의 검색란에 '고양시 아파트'처럼 키워드를 입력하여 우편주소, 도로명 주소, 도로명 영문주소, 지번 주소를 추출해보는 파이썬 크롤링 연습용 코드를 작성해봤다. 파이썬으로 juso 사이트에서 주소 추출하기 juso.go.kr의 검색란에 검색 키워드(예로, 고양시 아파트)를 입력하고 검색하면 도로명주소와 지번주소, 영문과 국문 변환, 우편번호 등을 확인할 수 있다. 여기서 도로명주소와 지번주소, 영문 도로명주소, 우편번호 등을 파이썬으로 크롤링해볼 것이다. 일단, 주소(URL)를 살펴보면, https://www.juso.go.kr/support/AddressMainSearch.do?currentPage=1&countPerPage=10&&searchType=HSTRY&searchKeyword=고..
-
파이썬으로 아파트 관련 기본 정보 추출해보기(공공데이터포털 API 사용법)코딩 연습/코딩배우기 2022. 1. 24. 14:28
아파트 관련 정보가 필요하여 공공데이터 포털(data.go.kr)에서 국토교통부 공동주택 기본 정보제공 서비스에 대한 오픈 API 활용신청 후 파이썬으로 코딩 후 데이터를 추출해보았다. 공공데이터 포털 API 사용해 아파트 정보 추출 공공데이터 포털에서 추출한 공동주택 관련 기본 정보제공 서비스에는 2가지 서비스가 있는데, 1) 공동주택 기본 정보조회 단지 코드를 이용해 단지명, 법정동 주소, 분양 형태, 난방방식, 건축물대장상 연면적, 동수, 세대수, 시공사, 시행사, 관리사무소 연락처, 관리사무소 팩스, 홈페이지 주소, 단지 분류, 도로명주소, 호수, 관리방식, 복도 유형, 사용승인일, 관리비 부과면적, 전용면적별 세대 현황, 단지 전용면적합, 법정동 코드를 조회할 수 있는 공동주택 기본 정보제공 서..
-
공공데이터 포털 api 사용법 - 파이썬으로 아파트 단지 코드 추출코딩 연습/코딩배우기 2022. 1. 23. 21:45
※파이썬으로 아파트 표준 데이터(공동주택 기본 정보) 관련 정보를 얻기 위해 공공데이터 포털에서 제공하는 단지 코드를 API를 활용해보았다. 그런데 전국에 있는 아파트 전체에 대한 코드가 아니라 관리비 공개 의무 단지만을 대상으로 하는 코드만 제공하는지 실제 아파트 숫자보다 적었다. 공공데이터 포털 오픈 API로 아파트 단지 코드 추출해보기 공동주택 관리비의 투명성 등을 확보한다는 취지로 지정된 "관리비 공개 의무 단지"는 다음과 같다고 되어있다. ☞ 참고 : 공동주택관리 정보시스템 http://www.k-apt.go.kr/cmmn/kaptworkintro.do 300세대 이상 공동주택, 승강기가 설치되었거나 중앙(지역) 난방방식을 갖춘 150세대 이상인 공동주택, 주택 150세대 이상인 주상복합 아파트..
-
파이썬 사전 타입 OrderedDict()와 dict() 차이점, 그리고 변환코딩 연습/코딩배우기 2022. 1. 20. 12:01
파이썬 OrderedDict()는 순서 있는 딕셔너리이다. 순서가 없는 dict()에 3.6 버전에서부터 순서를 부여하긴 했으나 자료 호환성 측면과 순서가 중요한 경우, OrderedDict()를 사용한다. 그런데 문제는 중첩(nested)된 OrderedDict 형태였다. 파이썬 OrderedDict()를 dict() 타입으로 변환 최근 창호 관련 홍보, 부동산 매물 확보와 부동산 분양 등의 홍보 등을 위한 DM 주소 확보를 위해 공공데이터 포털에서 아파트 관련 정보를 추출하고 있는데, 아파트 단지 코드가 필요하여 관련 open api를 활용하여 추출해야 했다. 그런데, 샘플 데이터인 xml 데이터를 파싱 해서 보니 OrderedDict 타입으로 되어있었다. 이 자료를 엑셀로 저장하기 위해 dict 타..
-
공공데이터를 활용한 아파트 도로명 주소 등 추출해보기코딩 연습/코딩배우기 2022. 1. 18. 16:12
공공데이터를 openapi로 제공하는 data.go.kr에서 아파트 관련 정보를 얻기 위해 api 사용 연습을 해보았는데, 구글에서 관련 자료들을 참고하여 시도하니 큰 어려움은 없었으나 1일당 제공하는 데이터의 양이 적은 것도 있어서, 표준 데이터(공동주택 기본 정보)를 활용했고, 그에 대한 샘플 자료를 대상으로 한 api 호출 내용을 정리해보았다. 아파트(공동주택) 기본 정보 api 호출 연습 등에 대한 정리 1. 본 작업을 하게 된 동기 얼마 전에 창호 샷시 교체 사업을 하는 회사에 다니는 지인의 부탁으로 아파트 dm을 보낼 주소(도로명 주소 기반 아파트 주소)를 구해달라는 부탁을 받았다. 인근 아파트에 리플릿이나 전단지 배포를 위해 사람을 고용하여 동, 호수마다 전단지를 한 장씩 배포하는 것은 해당..
-
웹 페이지 <script> 태그 CDATA, 넌 뭐하는 넘이니...코딩 연습/코딩배우기 2022. 1. 15. 21:41
웹 페이지 내 파이썬 스크래핑(크롤링)으로 CDATA 추출하는 방법 CDATA를 쓰는 이유는, 웹 브라우저의 구문 분석(XML Parser) 문제 때문에 사용하기도 하고, 웹 사이트에서 데이터를 추출할 때, 과도하게 추출하는 것을 막기 위한 조치, 즉 스크래핑(크롤링) 못하도록 여러 장치를 두는 한 방법으로도 사용하는 것이라고 한다. CDATA 있는 웹 페이지(샘플) ''' +855 (0)23 21 59 60 c.vattanakpagna@acclime.com https://cambodia.acclime.com/ ''' 크롤링 해보기 from requests_html import HTMLSession import re url = 'https://www.eurocham-cambodia.org/member/5..
-
네이버 쇼핑 아이디별 등록 상품 추출하는 법(파이썬 script 태그 스크래핑 가이드)코딩 연습/코딩배우기 2022. 1. 14. 13:09
네이버 쇼핑의 각 판매자 사이트에 들어가 보면 상품 리스트가 있고, 각 상품에 대한 제목, 가격, 리뷰수, 평점 등의 데이터가 있다. 이 부분을 확인해보면 파이썬 requests로 네이버쇼핑 아이디별 등록 상품 리스트 데이터 추출 네이버 쇼핑에서 상품 검색 시 스마트스토어에 상품을 등록한 판매자명이 보인다. 그 부분을 클릭하면 해당 판매자의 스마트스토어 쇼핑몰에 접속하게 되는데, 상품 리스트의 html 소스코드 내용을 보기 위해 "페이지 소스보기"를 해서 보던지, "개발자 도구(F12)"를 펼쳐 Name에서 메인 화면 또는 특정 항목(판매자 ID 등)으로 된 부분을 클릭해서 Response 부분의 코드를 보면 부분 밑에 관련 정보가 있는 것을 발견하게 된다. window.__PRELOADED_STATE_..