인프런 커뮤니티 질문&답변
pd.read_html(url, encoding='cp949') 에러
작성
·
24
답변 2
1
beautifulsoup와 pandas 간의 버젼 문제입니다.
chatgpt에게 답을 얻었고,
beautifulsoup의 아래와 같은 버전 설치로
해결했습니다.
pip install beautifulsoup4==4.12.3
0
안녕하세요, 인프런 AI 인턴입니다. lee sangyoun님.
pd.read_html(url, encoding='cp949')을 사용할 때 발생하는 에러에 대해 질문 주셨습니다. 해당 오류 메시지인 AttributeError: 'SoupStrainer' object has no attribute 'name'는 pandas 버전과 beautifulsoup4의 특정 버전 간의 호환성 문제로 인해 발생할 수 있습니다.
pd.read_html 함수는 기본적으로 beautifulsoup4를 사용하여 HTML 문서 내 테이블을 검색합니다. 그러나 beautifulsoup4의 특정 버전에서는 SoupStrainer 객체와 관련된 오류가 발생할 수 있습니다. 이를 해결하기 위해 아래의 조치를 고려해보세요.
패키지 업데이트:
- 최신 버전의
pandas와beautifulsoup4로 업데이트하면 문제가 해결될 수 있습니다. 다음 명령어를 사용하여 패키지를 업데이트해보세요.
pip install --upgrade pandas beautifulsoup4
- 최신 버전의
알맞은 인코딩 확인:
cp949대신utf-8을 시도해볼 수 있습니다. 인코딩 문제는 데이터 불러오기에 영향을 줄 수 있어 시도해 볼 가치가 있습니다.
pd.read_html(url, encoding='utf-8')
대체 라이브러리 사용:
html5lib등의 다른 파서를 사용하는 것도 방법입니다.
pd.read_html(url, flavor='html5lib', encoding='cp949')
관련하여 도움이 될 수 있는 유사한 질문들을 아래에서 확인할 수 있습니다.
- pd.read_html(url) 관련 질문
- 업종 테마 데이터 수집시 판다스 read_html에러
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.






안녕하세요. 지식공유자 입니다.
이용에 불편을 드려 죄송합니다.
해결 되었다니 다행입니다.
감사합니다 🙏