inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

현존 최강 크롤링 기술: Scrapy와 Selenium 정복

XPATH 이해하기

optoins.add_argument 관련 질문입니다

254

IJILKJ

작성한 질문수 68

0

User-Agent: ... 이걸 넣었을 때 생기는 문제인데요

아래 그림처럼 header를 인위적으로 주려고 파란부분을 모두 복사 후에 add_argument의 인자로 주면 코드를 동작시에 엄청 많은 불필요한 창들이 추가로 나오게 되는데 이유가 뭔가요?

그리고 파란 부분에서 딱 필요한 속성?들은 뭔지 알 수 있을까요?

scrapy selenium 웹-크롤링

답변 1

0

잔재미코딩 DaveLee

안녕하세요

user-agent 는 서버측에 현재 해당 HTML 파일을 요청하는 클라이언트의 the application, operating system, vendor, and/or version 등을 알려주는 HTML 헤더 정보입니다. 이 정보를 마치 웹브라우저가 접속한 것처럼 보이기 위해, 강제로 해당 헤더를 넣어주는 것인데요. 위 캡쳐해주신 화면에서 보시는 바와 같이, 요청을 하신 웹브라우저가 64비트 윈도우를 쓰고 있고, 웹브라우저 내의 웹킷은 537.36 버전, 크롬은 81 버전을 쓰고 있다 정도로 각 인자를 이해하시면 될 것 같아요. 

엄청 불필요한 창이 뜨는 것은 왠지 저 user-agent를 잘못 넣었다기 보다, 이를 실행하는 코드 상의 문제로 의심은 가는데요. 다음 코드 정도로 테스트를 해보시면 어떨까 합니다.

감사합니다.

from selenium import webdriver

 

options = webdriver.ChromeOptions()

options.add_argument('headless')

options.add_argument('window-size=1920x1080')

options.add_argument("disable-gpu")

options.add_argument("User-Agent:  Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36")

options.add_argument("lang=ko_KR")

 

chromedriver = '/usr/local/Cellar/chromedriver/chromedriver' # 맥

driver = webdriver.Chrome(chromedriver, chrome_options=options)

driver.get('http://v.media.daum.net/v/20170202185812986')

 

body = driver.find_element_by_id('harmonyContainer')

print (body.text)    

driver.quit()

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

626

1

scrapy를 jupyter 환경에서 할 수 있나요

0

361

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

313

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

0

221

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

0

279

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

335

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

292

3

PhantomJS 문의

0

294

1

selenium 문의

0

329

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3004

1

on error 해결 방법 질문

0

356

1

[팁] 윈도우 cmd 커맨드

0

347

1

[팁]Chrome User Agent 아는법

0

328

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

254

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

237

1

CSS Selector 에서 질문이 있습니다.

0

435

2

pip install scrapy 오류

0

484

1

셀레니움 실행불가

0

1578

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

227

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

288

1

강의교안자료 받을수있을까요?

0

263

1

[강의 9:27관련 질문] price, title 열 위치

0

160

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

368

1

css 셀렉터에 대해 질문이 있습니다.

0

147

1