Python

웹 크롤링 : Web Crawling

ai-world.tistory.com 2019. 11. 22. 10:13

과정

수집

정제 

(반복)

가공

시각화

 

검색 엔진들이 하는 일

Agent

 - 웹사이트 수집

 - 기초문서 대조

 - 변경사항

 

crawling하면 안되는 문서

 - .robots.txt라고 명시돼 있는 데이터를 crawling하게 되면 불법이니 조심합시다.

 

Jupyter

markdown

# -> headline(중요도가 가장 높습니다.)

## -> headline(# 6개까지 사용할 수 있습니다.)

 

사용 방법

Anaconda를 설치 후 실행 해 줍니다.

jupyter를 launch해 줍니다

입력하고 싶은 정보를 입력한 뒤 Ctrl+Enter를 누르면 문서화됩니다.

 

http: //naver.com/blog/abcd

protocol / host명 / 포트번호 / 위치

 

urllib.request (핵심)