python
-
파이썬으로 아스키(ASCII) Code 출력, 그리고 영문자에 대한 진수값들코딩 연습/코딩배우기 2020. 11. 8. 19:43
■ 파이썬으로 ASCII Code 출력하기 cnt = 0 for n in range(256): cnt += 1 print('{0:>3}:{1:>6}'.format(n, repr(chr(n))), end = '\t') if cnt % 4 == 0: print() [실행 결과] 0:'\x00' 1:'\x01' 2:'\x02' 3:'\x03' 4:'\x04' 5:'\x05' 6:'\x06' 7:'\x07' 8:'\x08' 9: '\t' 10: '\n' 11:'\x0b' 12:'\x0c' 13: '\r' 14:'\x0e' 15:'\x0f' 16:'\x10' 17:'\x11' 18:'\x12' 19:'\x13' 20:'\x14' 21:'\x15' 22:'\x16' 23:'\x17' 24:'\x18' 25:'\x1..
-
파이썬 크롤링(Crawling) 연습 - BeautifulSoup Documentation #2 (find_all, find, select 등)코딩 연습/코딩배우기 2020. 11. 8. 10:25
■ 파이썬 크롤링 BeautifulSoup Documentation 내용 정리 #2 find_all(), find_all() 및 find()와 같은 메서드들, CSS selector 이용하는 select()와 select_one(), 파스 트리(Parse Tree) 내용 수정, get_text(), Encodings 등 내용 정리 ### find_all() ## find_all()은 태그명, 속성, 문자열(텍스트) 또는 이들의 조합을 기준으로 사용할 수 있음 from bs4 import BeautifulSoup import re html_doc = ''' The Dormouse's story Once upon a time there were three little sisters; and their nam..
-
파이썬 크롤링(Crawling) 연습 - BeautifulSoup Documentation #1 (html 태그로 접근, 객체 4종류 등)코딩 연습/코딩배우기 2020. 11. 7. 12:00
■ 파이썬 크롤링 BeautifulSoup Documentation 내용 정리 #1 html의 Element 구조 탐색(검색), 객체 4종류 (Tag, NavigableString, BeautifulSoup, Comment) .contents .children .string .parent .paretns .next_sibling .previous_sibling .next_element .previous_element BeautifulSoup은 HTML 및 XML 파일에서 데이터를 추출하는 파이썬 라이브러리이다. BeautifulSoup version 4.9.2. 기준 html_doc = ''' 파이썬 크롤링 연습을 위한 포스팅 국회 법제사법위원회, 대검찰청 국정감사 유튜브 영상 김봉현 2차 폭로에 충격!..
-
파이썬 크롤링(Crawling) 연습 - 네이버 영화 평점/리뷰, 영화코드 추출코딩 연습/코딩배우기 2020. 11. 4. 22:14
■ 네이버 영화 사이트에 있는 평점/리뷰의 제목과 평점을 추출하여 dict로 저장하고, 영화코드를 파일로 저장해보기 import urllib.request from bs4 import BeautifulSoup from itertools import count def get_movie_reviews(mcode): url = 'https://movie.naver.com/movie/point/af/list.nhn?st=mcode&sword=' + str(mcode) + '&target=after&page=1' idx = 0 for cnt in count(1): #range(0, 1000): ## paging으로 변경(1,2,3,...)되는 url은 for문 try 부분에서 처리하여 대입시켜줌 review_ht..
-
파이썬 크롤링(Crawling) 연습 - BeautifulSoup 활용 기초코딩 연습/코딩배우기 2020. 11. 3. 21:43
■ BeautifulSoup 활용 기초 O HTML과 XML 파일에서 데이터를 추출해내는 파이썬 라이브러리 O HTMl과 XML의 트리구조를 탐색, 검색, 변경 가능 O 다양한 파서(parser)를 선택하여 이용 가능 O 파서(parser) -html.parser : 설치 필요 없음 -lxml : 실치 필요, 매우 빠름 -lxml-xml 또는 xml : 설치 필요, 매우 빠름 -html5lib : 설치 필요, 웹브라우저 방식으로 파싱(HTML5 생성), 매우 느림 O 활용 -BeautifulSoup(markup, 'html.parser') -BeautifulSoup(markup, 'lxml') -BeautifulSoup(markup, 'html.lxml-xml') -BeautifulSoup(markup,..
-
파이썬 크롤링(Crawling) 연습 - Daum에서 검색한 전화번호의 기본 정보 추출코딩 연습/코딩배우기 2020. 11. 1. 12:46
■ Daum에서 검색한 전화번호의 기본 정보와 업체명에 링크된 place 페이지 URL을 추출하고 html로 생성하는 연습 import requests from bs4 import BeautifulSoup def get_bs_obj(url, headers = None, params = None): result = requests.get(url, headers = headers, params = params) soup = BeautifulSoup(result.content, 'html.parser') return soup place_tels = ['033-633-1699', '054-734-1077', '055-962-5025', '055-286-2233'] print('') ## html table 생성..
-
파이썬 크롤링(Crawling) 연습 - find(), find_all() 사용한 네이버 증시 주가 추출코딩 연습/코딩배우기 2020. 10. 29. 15:04
■ 파이썬(Python) BeautifulSoup의 객체 관련 함수인 find(), find_all()를 활용한 네이버 금융의 국내증시 주가(시고저종) 부분 크롤링 url, headers, params를 인자로 전달하면 BeautifulSoup 객체를 return하는 function 만들어서 사용 종목코드를 입력하면 오늘, 전일, 고가(상한가), 거래량, 시가, 저가(하한가), 거래대금 추출할 수 있음 네이버 금융>국내증시의 페이지 소스 보기와 개발자도구(F12)에서 소스 코드 내용이 상이한 부분이 있음( 태그와 태그 중 보이지 않거나 속성이 변경되는 경우가 있음) ▷ 페이지 소스 삼성전자 오늘의시세 58,100 포인트 900 포인트 하락 1.53% 마이너스 58,100 58,100 전일대비 하락 900..
-
파이썬 크롤링(Crawling) 연습 - BeautifulSoup 객체를 모듈로 만들어서 사용해보기코딩 연습/코딩배우기 2020. 10. 27. 15:58
■ 파이썬(Python) BeautifulSoup의 객체를 반환하는 모듈을 만들어서 사용해보기 - 연습 대상 사이트 : 네이버 금융 페이지에서 주가를 추출해서 저장해보기 ▷ 모듈 : beautifulsoup.py # url, headers, params를 인자로 전달하면 BeautifulSoup 객체를 return하는 function 만들기 import requests from bs4 import BeautifulSoup def get_bs_obj(url, headers = None, params = None): result = requests.get(url, headers = headers, params = params) soup = BeautifulSoup(result.content, 'html.pa..