본문 바로가기

[Python] 크롤링하기

[Python] 크롤링하기

크롤링이란?

네이버 영화랭킹을 예시로 들자면 별점과 함께 순위의 이름을 가져오는 것 (엄밀히 말하면 스크래핑이라고 말한다. 혼용해서 씀)

구글, 네이버의 검색엔진이 내 사이트를 퍼가는 행위 

 

 

https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303 

 

랭킹 : 네이버 영화

영화, 영화인, 예매, 박스오피스 랭킹 정보 제공

movie.naver.com

 

네이버 영화랭킹의 순위, 영화명, 별점을 들고와보자. 

 

크롤링 기본 세팅 

 

bs4 패키지 설치 후 아래 코드 입력  

 

이미 가져온 것을 가지고 솎아내는 것이 크롤링이다. 중요한 것은 다음과 같다.

1. 요청을 하는 거 (request 패키지) 

2. 요청돼서 가지고 온 html 중 원하는 정보를 솎아내는 것 (bs4 패키지)

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

soup = BeautifulSoup(data.text, 'html.parser')

b4의 사용 방법은 두가지가 있다.

1. select_one 

2. select (리스트 형태로 여러개 나옴) 

 

크롤링은 코드를 솎아내는 방법이 전략에 따라 다양하다. 뚝딱뚝딱해서 뽑아내는 게 핵심이다. 

728x90
⬆︎