goodthings4me.tistory.com
파이썬으로 구분자를 주어 추출한 네이버 부동산 주소 텍스트 데이터에서 동명칭을 분리하여 추출하는 방법
파이썬으로 주소 분리 작업을 많이 하다 보면 구분자로 연결한 수십 수백 만 건의 텍스트 결과물에서 특정 부분을 추출하는 경우가 가끔 있다. 이때 엑셀로 변환 후에 추출할 수도 있지만, 엑셀의 행의 한계(row의 수가 104만개 정도)와 로딩 시간이나 함수 처리 시간이 너무 많이 걸리는 문제가 있다.
아래처럼 된 텍스트 결과물에서 그 중간에 있는 도로명주소와 괄호 안의 동 명칭을 추출해야 일이 있었는데, 그 아래처럼 코드를 짜서 실행해보니 잘 나왔다.
juso = [
'1977.11.$서울특별시 구로구 고척동 97-3$서울특별시 구로구 경서로1길 14(고척동, 삼명아파트)$서울특별시 구로구 고척동 97-3 삼명아파트',
'1977.12.$서울특별시 영등포구 여의도동 40-4$서울특별시 영등포구 국제금융로7가길 21(여의도동, 화랑아파트)$서울특별시 영등포구 여의도동 40-4 화랑아파트',
'1978.04.$서울특별시 서초구 방배동 776-3$서울특별시 서초구 방배로37길 26-9(방배동, 쌍용예가클래식)$서울특별시 서초구 방배동 776-3 쌍용예가클래식',
'1978.11.$서울특별시 광진구 광장동 145-8$서울특별시 광진구 아차산로 637(광장동)$서울특별시 광진구 광장동 145-8 워커힐아파트',
]
for line in juso:
idx = -1
p = [] # 위치값 저장
for i in range(1, line.count('$') + 1):
idx = line.find('$', idx + 1) # 데이터에서 '$' 위치값
print(f'idx: {idx}')
if i in (2, 3): # 추출할 도로명 앞뒤에 있는 '$' 순번 숫자 지정
p.append(idx) # 위치값을 리스트에 저장
print(p)
road = line[p[0]+1:p[1]] # 추출할 도로명주소
print(road)
# 도로명주소와 괄호 안의 동명칭 추출
road2 = ''
if road.find('(') == -1: # find()에서 '(' 없으면 -1 반환
road2 = road
else:
road2 = road[:road.find('(')] # '(' 위치 찾고 거기까지 문자열 추출
print(f'road2: {road2}')
dong = road[road.find('(')+1:].split(',')
if len(dong) > 1:
print(dong[0])
else:
print(dong[0][:-1])
print('-' * 30)
위 코드를 실행하면 다음과 같은 결과가 나온다.
idx: 8
idx: 27
idx: 58
[27, 58]
서울특별시 구로구 경서로1길 14(고척동, 삼명아파트)
road2: 서울특별시 구로구 경서로1길 14
고척동
------------------------------
idx: 8
idx: 29
idx: 65
[29, 65]
서울특별시 영등포구 국제금융로7가길 21(여의도동, 화랑아파트)
road2: 서울특별시 영등포구 국제금융로7가길 21
여의도동
------------------------------
idx: 8
idx: 28
idx: 64
[28, 64]
서울특별시 서초구 방배로37길 26-9(방배동, 쌍용예가클래식)
road2: 서울특별시 서초구 방배로37길 26-9
방배동
------------------------------
idx: 8
idx: 28
idx: 52
[28, 52]
서울특별시 광진구 아차산로 637(광장동)
road2: 서울특별시 광진구 아차산로 637
광장동
------------------------------
블로그 인기글
엑셀 시트 분리 저장 - 엑셀 파일의 시트를 분리하여 저장하기
엑셀을 사용하다 보면 엑셀 시트를 분리해서 저장해야 할 때가 있다. 최근에도 이런 경우가 발생하여 구글링 후 엑셀 시트 분리 업무를 수행하고 내친김에 다른 사람들도 사용할 수 있도록 파이썬 tkinter로 프로그램으로 만들어 보았다. Excel Sheets 분리 저장하는 프로그램(with 파이썬 Tkinter) ※ 프로그램 다운로드(네이버 MYBOX에서 공유) : ExcelSeparateSheets.zip ▶ 프래그램을 실행하면 다음과 같이 초기 화면이 보인다. 찾아보기 : 엑셀 파일이 있는 폴더를 선택한다. (프로그램이 있는 최상위 디렉터리가 열린다) 실행하기 : 프로그램 실행 버튼 상태 변경 순서 : 실행전 → 실행 중 → Sheet "OOO" 분리 저장 중 → 실행 완료 실행 결과 확인 : 엑셀 파..
goodthings4me.tistory.com
폐업 신고 절차와 부가가치세 신고하는 방법
폐업 신고 시 세무서 안 가고 온라인으로 신고하는 방법인 '국세청 홈택스를 이용하여 폐업 신고하는 절차와 폐업 후 해야 하는 부가가치세 신고, 인건비 저리, 종합소득세 신고 등에 대해 포스팅합니다. 폐업 신고 시 홈택스 이용하는 방법과 부가가치세 등 신고 절차 여러가지 사유로 폐업을 해야 할 때, 예전에는 세무서를 방문해야 했지만 국세청 홈택스가 생긴 이후에는 사업자 등록이나 폐업 등을 인터넷으로 할 수가 있게 되었습니다. 특히, 코로나 시국인 요즘은 더더욱 온라인 신청 업무가 더 활성화되었죠. 폐업을 한다는 것 자체가 우울한 일인데, 발품을 파는 것보다는 커피 한잔 하면서 인터넷으로 간단하게 처리하는 게 좋을 듯하여 그 절차를 올려봅니다. 폐업은 폐업 신고와 함께 폐업 후 절차까지 모두 마쳐야 불이익이..
goodthings4me.tistory.com
[국세청] 현금영수증가맹점으로 가입바랍니다. 메시지 해결방법(개인사업자)
▶ 현금영수증 가맹점 가입 메시지를 받고... 온라인 쇼핑몰 사업을 시작하려고 사업자등록증을 발급받고 난 후 얼마 안 있어서 국세청으로부터 어느 시점까지 '현금영수증 가맹점'으로 가입하라는 문자메시지가 받았었다. 그 메시지 기한이 오늘 도래했는데, 인터넷에서 찾아보니 홈택스에서 현금영수증 발급 사업자 신청을 할 수가 있었다. [관련내용] 홈>국세정책/제도>전자(세금)계산서/현금영수증/신용카드>현금영수증∙신용카드>가맹점가입 ▶ 홈택스 사이트에서 신청하는 절차는 다음과 같다. 우선, 홈택스에 로그인을 해야 합니다. 세상이 좋아져서 공인인증서 없이도 손쉽게 간편인증 로그인이 가능하다. 여러 인증방법 중 카카오톡 인증이 가장 편리한 거 같다. 간편인증 로그인 후 상단 '조회/발급' 탭 클릭 후 '현금영수증>현금..
goodthings4me.tistory.com
'코딩 연습 > 파이썬 크롤링' 카테고리의 다른 글
[파이썬 크롤링 연습] 가정용 보일러 인증제품 목록 수집 (0) | 2023.11.08 |
---|---|
서울시 집수리닷컴 시공업체 추출 파이썬 크롤링 연습 (0) | 2023.05.14 |
전원주택라이프 웹 사이트 크롤링 테스트 (0) | 2023.03.25 |
네이버 블로그 제목 리스트 추출해보기 (0) | 2022.08.23 |
네이버에서 도로명주소 지번주소 건물명칭 추출하기 (0) | 2022.07.18 |
댓글