inflearn logo
강의

講義

知識共有

Pythonセキュリティ自動化業務開発とOpenAI API業務適用

クローリングでマルウェア情報テキスト抽出

BeautifulSoup(html, "html5lib") 오류발생

222

godsibless

投稿した質問数 1

0

2024년 10월 현재 제 pc에 설치된 버전은 requests 2.32.3, beautifulsoup 4.12.3, bs4 0.0.2 , python 3.1.3 인데,

soup = BeautifulSoup(html, "html5lib") 코드는 오류발생 합니다.

"html5lib"대신 "html.parser" 사용하면 정상 작동합니다.

soup = BeautifulSoup(html, "html.parser")

python 웹-크롤링 slack flask

回答 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. godsibless님.

BeautifulSoup 모듈을 사용할 때 발생하는 오류에 대한 문제로 보입니다. 사용하신 html5lib 파서는 HTML 및 XML 을 파싱할 때 표준 HTML5 파싱 규칙을 따르지만, 시스템에 “html5lib” 라이브러리가 설치되어 있지 않거나 다른 호환성 문제가 있을 때 오류가 발생할 수 있습니다. 이 경우 html.parser 파서를 사용하면 기본 HTML 파서로써 작동하게 되어 정상 작동하는 것이 보편적입니다.

“html5lib” 대신 “html.parser”로 정상 작동하는 이유 요약:

  1. html.parser 기본 포함: Python의 기본 라이브러리인 “html.parser”는 추가 설치가 필요 없으며 범용적인 파서입니다.

  2. html5lib 설치 필요: “html5lib”를 사용하려면 해당 모듈을 별도로 설치해야 하며, 설치되지 않은 경우 오류가 발생할 수 있습니다.

  3. 라이브러리 호환성: 설치된 Python 버전과 완벽하게 호환되지 않을 경우 특정 파서에서 오류가 발생할 수 있습니다.

이러한 경우에는 html.parser를 사용하는 것이 일반적으로 문제를 해결하는 방법입니다. 다만, html5lib를 사용하고 싶다면, ‘html5lib’ 라이브러리가 올바르게 설치되어 있는지 확인해 보시기 바랍니다. 설치는 아래의 명령어를 통해 수행할 수 있습니다:

pip install html5lib

관련하여 동일한 문제를 겪고 계신 다른 학습자의 질문과 토론을 통해 추가적인 정보를 얻을 수 있습니다. 유사한 문제의 다른 사례들을 참고하시기 바랍니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

작업형 1 -연습문제 4-6

0

3

1

구글 그래피티 마켓 오류...?!

0

13

2

디스코드 소통창구는 없어졌나요 ??

0

11

1

FOREIGN KEY 정리하기, 영상대로 SQL코드 복붙해도 안되요.

0

11

1

모델 서빙과 관련된 강좌 출시 예정된 바가 있으신지 여쭤봅니다!

0

16

2

모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.

0

10

2

20번강좌에 대한 질문입니다.

0

9

1

6-6

0

23

1

작업형 1 유형 부분

0

24

2

수강평 이벤트

0

23

2

작업형 1 (삭제예정, 구 버전)

0

38

2

강의노트는 어디있나요?

0

21

1

노션 학습 자료 권한 요청

0

18

1

수강기간 연장 문의드립니다.

0

27

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

27

3

part2강의 문의사항입니다.

0

26

2

수강기간 연장 문의드립니다.

0

29

1

인덱스 슬라이싱

0

30

2

코드를 첨부해야하는 이유가 있나요?

0

22

2

소리가 겹쳐서 들려요

0

23

2

데스크톱과 노트북 연결

0

30

1

dict, zip

0

21

2

ModuleNotFoundError: No module named 'googletrans'

0

72

1

파일이 이진이거나 지원되지 않는 텍스트 인코딩을 사용하므로 표시되지 않음

0

705

3