[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

Question

안녕하세요, 강사님. 우선 좋은 강의 감사드립니다.  컴퓨터쪽 전공이 아닌 저도 잘 따라가면 원하는걸 할 수 있도록 정말 강의 내용이 좋습니다.  강의를 듣다가 몇몇 질문들이 좀 생겨서 한번 문의를 드리고자 합니다. 관련 질문들은 제목에 기재한 부분에서 생긴 궁금증입니다.   1. from ecommerce.items import EcommerceItem 관련,  현재 .py에서 ecommerce.items는 상위폴더인데, 따로 표기가 없어도 상위폴더를 찾아가나요? 하위폴더와 이름이 겹치면 어떻게되나요...? 하위폴더가 우선권이 있는지 등등 궁금합니다!   2. items.py에서 클래스변수에 name = scrapy.Field()를 선언하고, spider_name.py for문에서 그 클래스의 instance를 만들고, 그 instance에서 그 클래스변수를 마치 딕셔너리처럼 찾아가는데... 사실 제가 배운 기초개념에서는 조금 와닿지가 않는데... 그냥 scrapy.Field()라는 것을 이용해 name을 만들었고 그것은 딕셔너리처럼 instance에서 찾아갈수 있도록 기능이 구현되어있다~ 수준으로만 이해하면 될까요?   3. name이라는 object에 이제 값들을 넣을때(spider_name.py에서) for문을 돌리고, 각 iteration마다 instance를 만들고 딕셔너리처럼 찾아가서 값을 넣어주고 yield를 하는데요... 파이썬기초자로서 예를들면 리스트는 append로 값을 추가해라~ 이런식으로 배웠는데... 이 경우가 익숙치 않는데 추가적인 이해를 할만한 자료가 있을까요? 아니면... 사실 그냥 쓰는 입장에서는 for문내에서 instance만들고 instance[name] = 원하는값넣고 yield instance로 통째로 모듈처럼 그냥 쓰기만하면 될까요?   4. 아직 뒷강의는 못들었지만 (혹시 뒷강의에서 나올까봐^^;;) scrapy가 동적 웹크롤링이 가능한가요?

Answer

toaehddn 님,

1 하위폴더가 이름이 겹친다라는 것이 무슨 의미인지 잘 이해가 안갑니다. 폴더 이름으로 패키지 경로를 찾아가도록 되어 있습니.

2. scrapy 는 프레임워크라서, 내부 코드 구현 부분을 이해하기보다는, 가이드한대로 사용하는 것이 일반적입니다.

3. 아마도 이 부분도 비슷한 케이스같습니다. 자체 개발한 코드라면 내부 코드를 파악하고 이해하는 것이 일반적인지만, scrapy 는 프레임워크라서, 내부 코드 구현 부분을 이해하기보다는, 가이드한대로 사용하는 것이 일반적입니다.

4. scrpay 를 selenium 과 연계해서 쓸 수도 있는 것으로 이해하고 있지만, 보통은 그렇게 잘 안씁니다. 안정성에 이슈가 있을 수 있어서요.

toaehddn

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

이 글과 비슷한 Q&A

선생님이랑 똑같이 적었는데 저는 왜 오류가 날까요?ㅠ

1강에서 localhost:4000 접속

이것도 로직이 바뀐 것 같아요.

환불요청 실습 진행 적용 불가