작성
·
1.2K
0
업무 관련 크롤링을 할 겸 관련 페이지에서 크롤링을 할려고 했는데요.
크롤링 시 계속 아무 응답이 없어 구글링 하다, url을 soup 실행시켰는데요.
아래와 같이 일부 문자열이 깨져서 나옵니다. utf-8형태로도 바꿔보았지만 계속 동일 오류가 나는데요 ㅠ
간단하게나마 답변 부탁드립니다 ㅠㅠ
그리고 차단되는 홈페이지는 보통 url 을 실행시키면 <Response [200]> 문구가 아닌
다른 문구형태로 나온다고 알고 있는데요. 전체적으로 실행이 계속 안되는데 혹시 방법이 있을까요?
soup = BeautifulSoup(res.text,"html.parser", from_encoding='utf-8')
답변 1
0
안녕하세요. 답변도우미입니다.
아마 해당 사이트의 인코딩을 정확히 매핑해줘야할 것 같아요.
그런데 인코딩을 정확히 변환시키는 부분이 만만하지 않더라고요.
만약 사이트 크롤링을 막았다면, 아예 데이터가 나오지 않았을 것 같습니다.
비슷하게 시도하신듯 한데요. 다음과 같은 블로그도 참고해보시면 어떠실까요?
https://nan-sso-gong.tistory.com/23
감사합니다.