• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 엔지니어링

  • 해결 여부

    미해결

ul li 관련해서 크롤링 방식에 있어서 질문드립니다.

20.04.12 18:27 작성 조회수 135

0

만약

<ul ~~~>

  <li ~~~>

    <h3 ~~~>글제목1

    <p ~~~> 글내용1-1

    <p ~~~> 글내용1-2

  <li ~~~>

    <h3 ~~~> 글제목2

    <p ~~~> 글내용2-1

    <p ~~~> 글내용2-2

    <p ~~~> 글내용2-3

과 같이 글내용 개수가 다른 경우

css selector로 h3태그, p태그를 각각 검색했을 때

데이터 가공을 위해 페어를 맞출 때에 많은 어려움이 있습니다.

이런 경우 어떤 방법으로 해결하면 좋은가요?

답변 1

답변을 작성해보세요.

0

안녕하세요. 해당 부분은 본 강의의 기본 강의인,

파이썬입문과 크롤링기초 부트캠프 (2020 업데이트) [쉽게! 견고한 자료까지!]

에서, 다음 챕터들에서 설명을 드렸는데요.


크롤링 프로그램 완성: 크롤링한 데이터에서 다시 크롤링하기
먼저 ul li 로 해당 부분을 추출하신 후에,
각 부분을 다시 추출하시면 페어가 맞을 듯 합니다.
예를 들어, ul li 로 각 부분을 추출하고, 각 부분 안에서, 각각 h3, p를 추출하면 좋을 것 같습니다.
bestlists = soup.select('ul > li')
for item in bestlists:
     var1 = item.select_one('h3')
     var2s = item.select('p')