크롤링이란?
네이버 영화랭킹을 예시로 들자면 별점과 함께 순위의 이름을 가져오는 것 (엄밀히 말하면 스크래핑이라고 말한다. 혼용해서 씀)
구글, 네이버의 검색엔진이 내 사이트를 퍼가는 행위
https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303
네이버 영화랭킹의 순위, 영화명, 별점을 들고와보자.
크롤링 기본 세팅
bs4 패키지 설치 후 아래 코드 입력
이미 가져온 것을 가지고 솎아내는 것이 크롤링이다. 중요한 것은 다음과 같다.
1. 요청을 하는 거 (request 패키지)
2. 요청돼서 가지고 온 html 중 원하는 정보를 솎아내는 것 (bs4 패키지)
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)
soup = BeautifulSoup(data.text, 'html.parser')
b4의 사용 방법은 두가지가 있다.
1. select_one
2. select (리스트 형태로 여러개 나옴)
크롤링은 코드를 솎아내는 방법이 전략에 따라 다양하다. 뚝딱뚝딱해서 뽑아내는 게 핵심이다.
728x90