inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Hiện tại, công nghệ trích xuất dữ liệu mạnh nhất: Khám phá Scrapy và Selenium

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

276

toaehddn

29 câu hỏi đã được viết

0

안녕하세요, 강사님.
우선 좋은 강의 감사드립니다.
컴퓨터쪽 전공이 아닌 저도 잘 따라가면 원하는걸 할 수 있도록 정말 강의 내용이 좋습니다.
 
강의를 듣다가 몇몇 질문들이 좀 생겨서 한번 문의를 드리고자 합니다.
관련 질문들은 제목에 기재한 부분에서 생긴 궁금증입니다.
 
1. from ecommerce.items import EcommerceItem 관련,
현재 .py에서 ecommerce.items는 상위폴더인데, 따로 표기가 없어도 상위폴더를 찾아가나요? 하위폴더와 이름이 겹치면 어떻게되나요...? 하위폴더가 우선권이 있는지 등등 궁금합니다!
 
2. items.py에서 클래스변수에 name = scrapy.Field()를 선언하고, spider_name.py for문에서 그 클래스의 instance를 만들고, 그 instance에서 그 클래스변수를 마치 딕셔너리처럼 찾아가는데... 사실 제가 배운 기초개념에서는 조금 와닿지가 않는데... 그냥 scrapy.Field()라는 것을 이용해 name을 만들었고 그것은 딕셔너리처럼 instance에서 찾아갈수 있도록 기능이 구현되어있다~ 수준으로만 이해하면 될까요?
 
3. name이라는 object에 이제 값들을 넣을때(spider_name.py에서) for문을 돌리고, 각 iteration마다 instance를 만들고 딕셔너리처럼 찾아가서 값을 넣어주고 yield를 하는데요... 파이썬기초자로서 예를들면 리스트는 append로 값을 추가해라~ 이런식으로 배웠는데... 이 경우가 익숙치 않는데 추가적인 이해를 할만한 자료가 있을까요? 아니면... 사실 그냥 쓰는 입장에서는 for문내에서 instance만들고 instance[name] = 원하는값넣고 yield instance로 통째로 모듈처럼 그냥 쓰기만하면 될까요?
 
4. 아직 뒷강의는 못들었지만 (혹시 뒷강의에서 나올까봐^^;;) scrapy가 동적 웹크롤링이 가능한가요?

웹-크롤링 scrapy selenium

Câu trả lời 1

0

funcoding

toaehddn 님, 

1 하위폴더가 이름이 겹친다라는 것이 무슨 의미인지 잘 이해가 안갑니다. 폴더 이름으로 패키지 경로를 찾아가도록 되어 있습니.

2. scrapy 는 프레임워크라서, 내부 코드 구현 부분을 이해하기보다는, 가이드한대로 사용하는 것이 일반적입니다.

3. 아마도 이 부분도 비슷한 케이스같습니다. 자체 개발한 코드라면 내부 코드를 파악하고 이해하는 것이 일반적인지만, scrapy 는 프레임워크라서, 내부 코드 구현 부분을 이해하기보다는, 가이드한대로 사용하는 것이 일반적입니다.

4. scrpay 를 selenium 과 연계해서 쓸 수도 있는 것으로 이해하고 있지만, 보통은 그렇게 잘 안씁니다. 안정성에 이슈가 있을 수 있어서요. 

 

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

623

1

scrapy를 jupyter 환경에서 할 수 있나요

0

357

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

309

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

0

219

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

332

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

289

3

PhantomJS 문의

0

292

1

selenium 문의

0

326

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3002

1

on error 해결 방법 질문

0

354

1

[팁] 윈도우 cmd 커맨드

0

345

1

[팁]Chrome User Agent 아는법

0

325

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

252

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

234

1

CSS Selector 에서 질문이 있습니다.

0

432

2

pip install scrapy 오류

0

480

1

셀레니움 실행불가

0

1575

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

224

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

284

1

강의교안자료 받을수있을까요?

0

261

1

[강의 9:27관련 질문] price, title 열 위치

0

157

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

365

1

css 셀렉터에 대해 질문이 있습니다.

0

143

1

계쏙 질문해서 죄송합니다...

0

225

1