본문 바로가기
IT(Tip)

공공데이터 포털 오픈 api 아파트 기본정보 추출 데이터의 문제

by good4me 2022. 1. 28.

goodthings4me.tistory.com

지난 1월 24일 api로 추출한 아파트 기본정보와 관련하여 추출 데이터를 공유하면서 이 데이터의 문제점을 언급하고자 한다.

 

 

공공데이터 포털 제공 아파트 기본정보 데이터의 문제점

며칠 전에 포스팅한 글에서도 언급했지만, 공공주택(주로 아파트) 관련 데이터는 기본정보와 상세정보가 제공된다.

데이터 필드는 기본정보가 적긴 한데 같은 부분이 많이 있고, 실제 어떤 업무에 데이터를 적용하느냐에 따라 추출할 것이 정해진다.

이번 업무에서 필요한 데이터는 각 아파트 단지의 도로명주소와 사용승인일, 그리고 세대수(정확히는 동, 호수) 정보였지만, 추출한 데이터에 빈란이 좀 있고 도로명 주소와 법정동 주소의 불일치 문제가 있어서 정확성에 좀 의심이 갔다.

추출할 때 아파트 단지 코드를 필수로 입력해야 해서 단지 목록 api를 이용해 단지 코드를 먼저 추출한 후 대입시켜서 아파트 기본정보를 추출했다.

아파트 기본정보

 

추출 결과,

해당 일자 전체 추출 데이터는 18,446건이었고, 법정동 주소도 18,446건이었는데 도로명주소는 17,364건이었다. (1,082건 차이)

 

good4me.co.kr

 

항목별 건수

아파트 단지 코드는 중복이 없었는데, 도로명 주소는 중복 건이 498건, 법정동 주소는 4건이 있었다.

법정동 주소는 있고 도로명주소는 없는 데이터를 juso.go.kr에서 검색을 하니 아파트 명칭과 일치하지 않거나 아예 데이터가 없는 경우도 있었다.

더 웃긴 건 juso.go.kr에서 추출한 아파트 기본정보의 도로명 주소를 넣고 검색하면 엉뚱한 지번이 나온다는 것이었다. 

공공데이터 포털에서 뽑으면 원하는 데이터를 제대로 구할 줄 알았다.

 

데이터 부정확성에는 당연히 이유가 있겠지만, 업데이트가 안된 데이터의 신뢰성을 어디까지 믿고 사용해야 할지 난감했다.

그리고, data.go.kr의 데이터가 정확한건지 juso.go.kr 데이터가 정확한 건지 알 수가 없었고, 2개의 데이터를 비교하며 수작업으로 정리를 하다 보니 한 달은 족히 걸릴 것 같아서 일단 포기했다.

 

 

 

 

 

 

 

댓글