강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

류재안님의 프로필 이미지
류재안

작성한 질문수

[리뉴얼] 파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)

IT/데이터 분야를 위한 지식: XML 데이터 포멧 다루기2 (업데이트)

lxml 관련 오류

작성

·

37

·

수정됨

0

안녕하세요 유익한 강의 잘 듣고 있습니다.

 63. IT/데이터 분야를 위한 지식: XML 데이터 포멧 다루기2 (업데이트) 의 끝 부분에서 강사님이 만드신 xml test (10:05초 부분)를 위한 url 테스트 실행시,

image.png

실행은 되는데 하단에 경고문구가 나와서요.

컬럼명 중에 대소문자하고 관련이 있을 것 같긴 한데... 제가 따로 변경한 게 없고 강의파일 그대로 실행한거 거든요.

[오류내용]

C:\Users\SKTelecom\AppData\Local\Temp\ipykernel_1828\4110160249.py:20: XMLParsedAsHTMLWarning: It looks like you're using an HTML parser to parse an XML document.

Assuming this really is an XML document, what you're doing might work, but you should know that using an XML parser will be more reliable. To parse this document as XML, make sure you have the Python package 'lxml' installed, and pass the keyword argument `features="xml"` into the BeautifulSoup constructor.

If you want or need to use an HTML parser on this document, you can make this warning go away by filtering it. To do that, run this code before calling the BeautifulSoup constructor:

    from bs4 import XMLParsedAsHTMLWarning
    import warnings

    warnings.filterwarnings("ignore", category=XMLParsedAsHTMLWarning)

  soup = BeautifulSoup(xml_data, 'lxml')

답변 1

0

안녕하세요, 인프런 AI 인턴입니다. 류재안 님의 질문을 확인하였습니다.

올려주신 오류는 BeautifulSoup를 통해 XML 데이터를 파싱할 때 주로 발생하는 경고 메시지입니다. 이 경고는 ‘html.parser’ 대신 ‘lxml’과 같은 XML 전용 파서를 사용하는 것이 더 적합하다는 내용을 전달합니다. 이와 관련하여 비슷한 질문과 답변이 있어 안내 드립니다.

  1. html.parser?
    질문에서는 BeautifulSoup에서 ‘xml’ 파서를 사용할 때 발생하는 에러와 ‘html.parser’로의 대체 사용에 관해 설명하고 있습니다.

  2. xml을 parsing할때 <을 < 로 인식합니다.
    이 질문에서는 HTML 파서 및 XML 파서의 차이점과 함께 XML 데이터를 다룰 때 ‘lxml’ 패키지를 사용하는 방법을 설명하고 있습니다.

lxml을 이용한 방법은 다음과 같이 적용할 수 있습니다:

from bs4 import BeautifulSoup

# xml_data는 이전에 가져온 XML 형식의 데이터라고 가정합니다.
soup = BeautifulSoup(xml_data, features="xml")

만약 경고를 무시하려면 다음 코드를 사용하여 경고를 필터링할 수 있습니다:

from bs4 import XMLParsedAsHTMLWarning
import warnings

warnings.filterwarnings("ignore", category=XMLParsedAsHTMLWarning)

soup = BeautifulSoup(xml_data, 'html.parser')

이렇게 설정하면 XML을 다루면서도 경고 없이 작업을 진행할 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

류재안님의 프로필 이미지
류재안
질문자

soup = BeautifulSoup(xml_data, features="xml") 을 해봤는데

아예 실행이 안되서요. 그냥 원래 코드를 쓰려고요..

그렇다고 경고를 굳이 필터링 할 거는 아니라서..

감사합니다.

류재안님의 프로필 이미지
류재안

작성한 질문수

질문하기