본문 바로가기
코딩 연습

문자열에 \xa0 있을 경우 제거하는 방법

by good4me 2022. 12. 2.

goodthings4me.tistory.com

엑셀 파일의 셀 값(도로명주소)을 읽어서 파이썬 replace() 함수로 공백 제거 후 다른 값과 비교하려고 했으나 공백 제거가 안 되었는데, 원인을 찾아보니 \xa0 문자가 있었네요. 이 문자를 제거하는 방법을 찾아서 해결하고 내용을 올려봅니다.

 

 

문자열에 \xa0가 있는 엑셀 파일의 도로명주소

엑셀 파일의 1열에 도로명주소 수천 개를 입력하고, 파이썬 코드에서 파일을 읽고 도로명주소(juso.go.kr)에 검색어로 입력한 후 검색한 결과를 다른 엑셀 파일에 저장하는 코드를 짰는데, 엑셀의 주소 중 문제가 되는 건  '강원도 강릉시 강변로 270 '이었다. 또 다른 주소들도 문제가 있는 것들이 많았는데, 이것을 파이썬의 replace() 함수로 공백을 제거해보았지만, 다음과 같은 결과가 나왔다.

juso = '강원도 강릉시 강변로 270'
juso1 = juso.replace(' ', '')
print(juso1)
# 강원도강릉시 강변로 270

위 주소를 문자마다 타입을 찍어보았다.

juso = '강원도 강릉시 강변로 270'
juso1 = ''
for ju in juso:
    if ju != ' ':
        juso1 += ju
    print(repr(ju), ord(ju), type(ju))

print(juso1)
print(repr(chr(160)))

출력 결과를 확인해보니 아래처럼 중간에 '\xa0' 문자가 보였다. 이 문자는 non-breaking space Latin1 (ISO 8859-1)의 '비 공백 공간 문자'라고 한다.

 

good4me.co.kr

 

'강' 44053 <class 'str'>
'원' 50896 <class 'str'>
'도' 46020 <class 'str'>
' ' 32 <class 'str'>
'강' 44053 <class 'str'>
'릉' 47497 <class 'str'>
'시' 49884 <class 'str'>
'\xa0' 160 <class 'str'>
'강' 44053 <class 'str'>
'변' 48320 <class 'str'>
'로' 47196 <class 'str'>
'\xa0' 160 <class 'str'>
'2' 50 <class 'str'>
'7' 55 <class 'str'>
'0' 48 <class 'str'>
강원도강릉시 강변로 270
'\xa0'

 

'\xa0' 문자 제거

제거 방법은 replace(u'\xa0', u' ') 함수로 가능!

juso = '강원도 강릉시 강변로 270'
juso1 = ''
for ju in juso:
    if ju == '\xa0':
        ju = ju.replace(u'\xa0', u' ')
    print(repr(ju), ord(ju), type(ju))
    if ju != ' ':
        juso1 += ju
print(juso1)

'''
'강' 44053 <class 'str'>
'원' 50896 <class 'str'>
'도' 46020 <class 'str'>
' ' 32 <class 'str'>
'강' 44053 <class 'str'>
'릉' 47497 <class 'str'>
'시' 49884 <class 'str'>
' ' 32 <class 'str'>
'강' 44053 <class 'str'>
'변' 48320 <class 'str'>
'로' 47196 <class 'str'>
' ' 32 <class 'str'>
'2' 50 <class 'str'>
'7' 55 <class 'str'>
'0' 48 <class 'str'>
강원도강릉시강변로270
'''

위 출력 결과를 보면, '\xa0' 문자가 없어져서 주소가 '강원도강릉시강변로270'처럼 원하는 대로 나왔네요.

 

댓글