Study/python

    crawling - Headers 사용으로 Bot 차단 피하기

    파이썬으로 크롤링 중에 별다른 이유없이 크롤링이 안될 때는 서버에서 봇감지를 하고 차단한 경우일 때가 있다. 1. 접속 확인을 해보자 - 접속이 잘되는것을 확인. import requests url = 'http://www.crawring_url.com/blablabla/' html = requests.get(url).text 2. 다음으로 print(html)로 확인 했을때 "보안절차를 통과하면 검색서비스를 정상으로 이용할 수 있다"는 종류의 페이지 결과가 나온다면 봇차단이 된것이다. 3. 이럴때 header 정보에 User-Agent를 넣어준다. HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ..