• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

BeautifulSoup 한글깨짐

22.10.06 15:34 작성 조회수 851

0

업무 관련 크롤링을 할 겸 관련 페이지에서 크롤링을 할려고 했는데요.

크롤링 시 계속 아무 응답이 없어 구글링 하다, url을 soup 실행시켰는데요.

아래와 같이 일부 문자열이 깨져서 나옵니다. utf-8형태로도 바꿔보았지만 계속 동일 오류가 나는데요 ㅠ

간단하게나마 답변 부탁드립니다 ㅠㅠ

그리고 차단되는 홈페이지는 보통 url 을 실행시키면 <Response [200]> 문구가 아닌

다른 문구형태로 나온다고 알고 있는데요. 전체적으로 실행이 계속 안되는데 혹시 방법이 있을까요?


 

soup = BeautifulSoup(res.text,"html.parser", from_encoding='utf-8')

 

 

답변 1

답변을 작성해보세요.

0

안녕하세요. 답변도우미입니다.

아마 해당 사이트의 인코딩을 정확히 매핑해줘야할 것 같아요.

그런데 인코딩을 정확히 변환시키는 부분이 만만하지 않더라고요.

만약 사이트 크롤링을 막았다면, 아예 데이터가 나오지 않았을 것 같습니다.

비슷하게 시도하신듯 한데요. 다음과 같은 블로그도 참고해보시면 어떠실까요?

https://nan-sso-gong.tistory.com/23

감사합니다.