inflearn logo
강의

Course

Instructor

Easy Python Advanced Crawling [Scrapy, Selenium, Headless Chrome]

Various Uses of Scrapy: Crawling Naver Open API with Scrapy1

start_urls = ['']가 제공해주신 것과 다르게 작동합니다.

278

phantele47

3 asked

1

영상의 8분 즈음에서 

cmd 창에서,

C:\Users\junyo\잔재미코딩\최종 복습\mynaverapi\mynaverapi>scrapy genspider navershopapi openapi.naver.com/v1/search/shop.json

작성하면, cmd 창에

Created spider 'navershopapi' using template 'basic' in module:

  mynaverapi.spiders.navershopapi

이렇게 뜨고, navershopapi.py가 생성됩니다.

navershopapi.py 파일을 보면

class NavershopapiSpider(scrapy.Spider):
    name = 'navershopapi'
    allowed_domains = ['openapi.naver.com']
    start_urls = ['http://openapi.naver.com/']

이렇게 뜹니다. 

 

제공해주신 파일의 navershopapi.py 에서는

class NavershopapiSpider(scrapy.Spider):
    name = 'navershopapi'
    allowed_domains = ['openapi.naver.com/v1/search/shop.json']
    start_urls = ['https://openapi.naver.com/v1/search/shop.json']
 
 

처럼 start_urls가 다르게 나옵니다. 

 

물론, 제공한 파일의 start_urls로 변경해서 저장한 뒤에 실행하면 문제 없습니다. 

다만,  왜 start_urls에 제가 cmd 창에서 명령한 대로 작동되지 않는 지 궁금합니다. 

 

 

 

웹-크롤링 selenium scrapy bigdata

Answer 2

0

python1828

같은 증상이었는데, 이글을 보고 잘해결되었습니다. 감사합니다.

0

funcoding

안녕하세요.

 

말씀해주셔서, 저도 동일하게 영상과 같이 실행을 해보았어요.

영상과 같이 다음과 같이 명령을 수행하였고요.

scrapy genspider navershopapi openapi.naver.com/v1/search/shop.json

 

spiders 폴더 내의 navershopapi.py 파일을 보니, 다음과 같이 보여져서요. 제공해드린 파일과 유사하게 나오고 있어서요. 말씀하신대로 openapi.naver.com 으로만 나오지는 않습니다. 물론 start_urls 는 자동으로 http:// 으로 붙어있어서, https:// 로 직접 수정해주셔도 좋은데요. 기본적으로는 유사하게 동작하는 것은 확인하였고, 혹시라도 수강생님의 PC 에서는 정상동작하지 않는다면,  start_urls 를 직접 수정해주셔도 진행하시는데는 이슈는 없습니다. 

 

# -*- coding: utf-8 -*-

import scrapy

 

 

class NavershopapiSpider(scrapy.Spider):

    name = 'navershopapi'

    allowed_domains = ['openapi.naver.com/v1/search/shop.json']

    start_urls = ['http://openapi.naver.com/v1/search/shop.json/']

 

    def parse(self, response):

        pass

 

감사합니다.

[REST API] data의 교환방식 질문

1

663

1

headless chrome 오류 문의

0

1486

1

Selenium 처리 속도 관련 문의드립니다.

0

1950

1

동적 웹사이트에서 element가 선택되지 않는 문제에 관해 질문드립니다

0

686

1

webdriver manager

0

438

1

__init__() got an unexpected keyword argument 'service' 에러 질문드립니다.

1

11707

1

Jupiter NoteBook 파일과 PDF 파일은 어디서 다운로드 받을 수 있나요?

0

443

1

scrapy option질문

1

243

1

response.css 질문드립니다.

0

367

1

scrapy 크롤링 수행시 ffi.callback() 에러가 발생합니다

0

396

1

selenium으로 여러페이지 수집시 질문

0

380

1

연습6 모범 코드: 로그인 시나리오 해보기

0

269

1

셀레니움 문법 업그레이드 , find_element_by_tag_name 오류

3

2830

1

셀레니움 버전 변경으로 인한 코드 변경

0

1283

1

headless error

0

439

1

질문있습니다!

0

463

1

안녕하세요 선생님! 질문있습니다.

0

231

1

selenium&scrapy문의

0

279

1

아래분(phantele47)과 동일한 문제가 발생해서 문의드립니다.

0

909

6

ip 차단을 피하려면 어떻게 해야 하나요?

0

3353

2

json, data = json.loads(response.body_as_unicode()) 부분에 문제가 있는 것 같습니다.

0

596

3

웹크롤링이 상대방 서버에 부담이 될 때는 어떻게 하나요~?

0

680

1

scrapy 윈도우버전의 설명은 따로 없나요??

0

325

1

json 으로 저장이 안되네요

0

2129

1