본문 바로가기

카테고리 없음

[파이썬] 웹 크롤링: 파이썬으로 웹 사이트 읽어오기

웹 스크래핑을 하기 위해서는 우선 내가 원하는 웹 사이트를 읽어올 수 있어야 합니다. 

 

웹의 동작 방식

브라우저에 원하는 페이지의 주소를 입력하고 엔터를 치면 다음과 같은 일이 일어납니다. 브라우저는 서버에게 html 파일 요청하고 서버는 이를 반환해줍니다. 이때 필요에 따라서 css, javajavascript가 포함되기도 합니다. 웹 브라우저는 이 파일들을 한데 모아 우리가 보는 화면 위에 그려줍니다.

 

웹의 동작 방식

 

파이썬 코드로 페이지 읽기

파이썬에서는 단 세줄의 코드로 똑같은 일을 할 수 있습니다. 매우 간단합니다.

import requests
html = requests.get('https://www.google.com/')
print(html.text)

 

 

위의 코드를 실행해보면 페이지의 HTML 코드가 출력되는 것을 알 수 있습니다. 만약 지저분하게 보이는 게 마음에 들지 않는다면 다음과 같은 코드를 실행해도 됩니다.

 

import requests
from bs4 import BeautifulSoup
html = requests.get('https://www.google.com/')
soup = BeautifulSoup(html.text)
print(soup.prettify())

 

깔끔하게 정리된 것을 확인할 수 있습니다. 

 

 

-이 글은 아나콘다(Anaconda3)가 설치된 환경을 기준으로 작성되었습니다.