inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

R로 하는 웹 크롤링 - 실전편

다음 카페 게시글 크롤링(header활용)

Referer

307

zff

작성한 질문수 4

0

referer는 어떤 url를 가지고 오신건가요? 무조건 저 url을 가지고 와야되나요?

웹-크롤링 R

답변 1

0

코코

안녕하세요. zff님

referer의 경우 크롤링 하고자 하는 관련 사이트의 관련 URL을 설정하시면 됩니다.

꼭 저 url을 써야하는 것은 아니고 http://m.search.daum.net/search?q=1 대신

http://m.search.daum.net/search?q=3333 이와 같이 설정하셔도 괜찮습니다.

이와 비슷하게 네이버 증권페이지를 수집할 때에 아래와 같이 referer를 설정하여 수집할 수 습니다.

url<-"http://finance.naver.com/item/sise_day.nhn?code=005930&page=1" # 종목

library(httr)

referer <- add_headers(Referer = "http://finance.naver.com/item/sise_day.nhn?code=005380&page=11") # page number는 아무거나 수정해도 상관없음

tmp <- GET(url, referer) # GET함수를 통해 해당 서버에 통신을 함 뒤에 referer인자가 위장술

ta<-read_html(tmp)%>% html_nodes(xpath = '/html/body/table[1]') %>% html_table()

ta2<-(ta[[1]])

ta2[-c(1,7,8,9,15),]

보배드림 content 관련 규칙 변경

0

394

0

readLines부터 에러가 뜨는데 어떻게 해야할까요 ㅜㅜ

0

314

0

에러 코드

0

387

2

최종 코드 입니다.

0

267

0

토큰을 제출해야 하는 사이트 크롤링

0

504

1

객체 'k'를 찾을 수 없습니다

0

366

1

소스코드

0

273

1

보베드림 강의 오류관련 질문입니다.

0

443

1

원하는 지역의 카페(맛집) 리스트 크롤링 for문 질문

0

320

1

원하는 지역의 카페(맛집) 리스트 크롤링 10:09분경 질문

0

381

1

셀레늄 사용시 W3C 에러 문제

0

266

1

수업관련 문의

0

333

3

오류무시 code 관련

0

255

1

위도 경도 가져오기

0

359

1

encoding 해결 방법

0

298

1

대량의 뉴스데이터를 보고싶다면 어떻게 해야하나요?

0

328

1

자바스크립트 및 iframe으로 구성되어 있는 웹페이지 크롤링 문의

0

442

1

어떤 문제로 인해 na 가 발생하는걸까요? 블로그 크롤링 부분입니다.

0

355

2

이미지 크롤링 개수를 80개 이상으로 하는 방법도 있을지요?

0

330

2

혹시 셀레니움을 스레드로 이용 할 수 있을까요?

0

539

1

네이버는 셀레니움을 통해 로그인할 경우 캡챠가 무조건 떠서 불가능하네요

1

677

5

셀레니움을 사용하지 않고 로그인을 하는 방법은 없나요?

0

242

2

웹 크롤링 방법

0

193

1

readlines. htmltab, readhtmltable 구별해 사용하는 방법?

0

272

2