-
카테고리
-
세부 분야
데이터 엔지니어링
-
해결 여부
미해결
ul li 관련해서 크롤링 방식에 있어서 질문드립니다.
20.04.12 18:27 작성 조회수 135
0
만약
<ul ~~~>
<li ~~~>
<h3 ~~~>글제목1
<p ~~~> 글내용1-1
<p ~~~> 글내용1-2
<li ~~~>
<h3 ~~~> 글제목2
<p ~~~> 글내용2-1
<p ~~~> 글내용2-2
<p ~~~> 글내용2-3
과 같이 글내용 개수가 다른 경우
css selector로 h3태그, p태그를 각각 검색했을 때
데이터 가공을 위해 페어를 맞출 때에 많은 어려움이 있습니다.
이런 경우 어떤 방법으로 해결하면 좋은가요?
답변을 작성해보세요.
0
잔재미코딩 DaveLee
지식공유자2020.04.16
안녕하세요. 해당 부분은 본 강의의 기본 강의인,
파이썬입문과 크롤링기초 부트캠프 (2020 업데이트) [쉽게! 견고한 자료까지!]
에서, 다음 챕터들에서 설명을 드렸는데요.
크롤링 프로그램 완성: 크롤링한 데이터에서 다시 크롤링하기
먼저 ul li 로 해당 부분을 추출하신 후에,
각 부분을 다시 추출하시면 페어가 맞을 듯 합니다.
예를 들어, ul li 로 각 부분을 추출하고, 각 부분 안에서, 각각 h3, p를 추출하면 좋을 것 같습니다.
bestlists = soup.select('ul > li')
for item in bestlists:
var1 = item.select_one('h3')
var2s = item.select('p')
답변 1