강의

챌린지

멘토링

클립

로드맵

현존 최강 크롤링 기술: Scrapy와 Selenium 정복

ul li 관련해서 크롤링 방식에 있어서 질문드립니다.

2020-04-12T09:27:33.057Z

224

dksdbqls23

작성한 질문수 1

0

만약

<ul ~~~>

<li ~~~>

<h3 ~~~>글제목1

<p ~~~> 글내용1-1

<p ~~~> 글내용1-2

<li ~~~>

<h3 ~~~> 글제목2

<p ~~~> 글내용2-1

<p ~~~> 글내용2-2

<p ~~~> 글내용2-3

과 같이 글내용 개수가 다른 경우

css selector로 h3태그, p태그를 각각 검색했을 때

데이터 가공을 위해 페어를 맞출 때에 많은 어려움이 있습니다.

이런 경우 어떤 방법으로 해결하면 좋은가요?

selenium 웹-크롤링 scrapy

답변 1

0

잔재미코딩 DaveLee

2020-04-16T02:30:36.840Z

안녕하세요. 해당 부분은 본 강의의 기본 강의인,

파이썬입문과 크롤링기초 부트캠프 (2020 업데이트) [쉽게! 견고한 자료까지!]

에서, 다음 챕터들에서 설명을 드렸는데요.

크롤링 프로그램 완성: 크롤링한 데이터에서 다시 크롤링하기

먼저 ul li 로 해당 부분을 추출하신 후에,

각 부분을 다시 추출하시면 페어가 맞을 듯 합니다.

예를 들어, ul li 로 각 부분을 추출하고, 각 부분 안에서, 각각 h3, p를 추출하면 좋을 것 같습니다.

bestlists = soup.select('ul > li')

for item in bestlists:

var1 = item.select_one('h3')

var2s = item.select('p')

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

2021-11-13T18:20:22.549Z

0

647

1

scrapy를 jupyter 환경에서 할 수 있나요

2021-11-12T03:23:11.926Z

0

372

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

2021-11-11T15:03:34.100Z

0

326

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

2021-11-10T12:44:57.016Z

0

233

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

2021-11-10T08:05:49.979Z

0

286

1

xml을 parsing할때 <을 < 로 인식합니다.

2021-11-08T03:36:13.732Z

0

342

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

2021-11-05T13:39:52.744Z

0

295

3

PhantomJS 문의

2021-11-01T23:52:44.989Z

0

307

1

selenium 문의

2021-11-01T14:08:50.289Z

0

337

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

2021-10-29T10:44:05.304Z

0

3014

1

on error 해결 방법 질문

2021-10-12T09:14:10.840Z

0

366

1

[팁] 윈도우 cmd 커맨드

2021-10-06T02:49:01.140Z

0

355

1

[팁]Chrome User Agent 아는법

2021-09-27T03:57:05.947Z

0

334

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

2021-09-15T07:07:46.178Z

0

259

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

2021-08-09T04:26:17.102Z

0

251

1

CSS Selector 에서 질문이 있습니다.

2021-08-03T14:40:15.885Z

0

447

2

pip install scrapy 오류

2021-08-01T14:15:12.512Z

0

499

1

셀레니움 실행불가

2021-07-11T08:09:18.942Z

0

1593

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

2021-07-10T08:22:00.028Z

0

232

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

2021-07-08T06:30:14.354Z

0

300

1

강의교안자료 받을수있을까요?

2021-06-29T13:00:39.047Z

0

271

1

[강의 9:27관련 질문] price, title 열 위치

2021-06-23T15:08:49.611Z

0

163

1

div에 있는 클래스가 2개이면 어떻게 하나요?

2021-06-21T12:09:28.145Z

0

373

1

css 셀렉터에 대해 질문이 있습니다.

2021-06-21T06:10:22.350Z

0

155

1