웹 크롤링 : Web Crawling

Python

ai-world.tistory.com 2019. 11. 22. 10:13

과정

수집

정제

(반복)

가공

시각화

검색 엔진들이 하는 일

Agent

- 웹사이트 수집

- 기초문서 대조

- 변경사항

crawling하면 안되는 문서

- .robots.txt라고 명시돼 있는 데이터를 crawling하게 되면 불법이니 조심합시다.

Jupyter

markdown

# -> headline(중요도가 가장 높습니다.)

## -> headline(# 6개까지 사용할 수 있습니다.)

사용 방법

Anaconda를 설치 후 실행 해 줍니다.

입력하고 싶은 정보를 입력한 뒤 Ctrl+Enter를 누르면 문서화됩니다.

http: //naver.com/blog/abcd

protocol / host명 / 포트번호 / 위치