inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

R로 하는 웹 크롤링 - 실전편

원하는 지역의 카페(맛집)리스트 크롤링

원하는 지역의 카페(맛집) 리스트 크롤링 10:09분경 질문

381

jhdia

작성한 질문수 11

0

1.

윗 부분 코드에는 name,id,x,y,address를 찾기 위해서 list앞에 [[1]]를 일괄적으로 붙이는 건 이해가 가는데, 아래의 sapply 부분 코드에서의 function부분을 보면 [[1]]가 없는데 왜 그런지 잘 이해가 가지 않습니다. 

b2$result$site$list[[1]]가 아니라 b2$result$site$list를 입력값으로 받는거면 함수에 적용되는 식도 b2$result$site$list$name 등 이런 식이 아닌가요? 따로 b2$result$site$list$name을  시도해봤는데 오류가 뜨고..

즉 함수의 입력값에 들어가는 값이 x[[1]]가 아니라 단순히 x로 들어가는 것 같은데 왜 정상적으로 실행이 되는건지 원리가 잘 이해가 안가네요.

2.

왜 이런 오류가 뜨는 지 잘 모르겠네요.

첫번째 키워드(신촌 카페)는 잘 수집되는데 두 번쨰부터 막히는 것 같습니다. 키워드를 바꿔서 해봤는데도 항상 두 번째 키워드만 시행이 안됩니다. HTTP 404 오류가 발생했다고해서 사이트에 직접 접속해보면 문제없이 되서 무엇이 문제인지 잘 모르겠습니다. 

감사합니다

웹-크롤링 R

답변 1

0

코코

안녕하세요. 차성원 님 답변이 늦어서 대단히 죄송합니다.

크롤링은 기본적을 웹사이트 구조에 따라 달라지는데, 웹사이트 구조가 바뀌면 당연히 코드도 수정이 필요하게 됩니다.

현재 네이버지도의 경우 막히진 않았습니다만, 지속적인 web 호출을 차단하고 있는 것 같습니다.

readLines를 아래와 같이 수정해주시면 에러처리를 하면서 수집이 가능합니다.

  if(class(try(b<-readLines(url,encoding="UTF-8")))=='try-error'){

    

  }

보배드림 content 관련 규칙 변경

0

394

0

readLines부터 에러가 뜨는데 어떻게 해야할까요 ㅜㅜ

0

314

0

에러 코드

0

387

2

최종 코드 입니다.

0

267

0

토큰을 제출해야 하는 사이트 크롤링

0

504

1

객체 'k'를 찾을 수 없습니다

0

366

1

소스코드

0

273

1

Referer

0

307

1

보베드림 강의 오류관련 질문입니다.

0

443

1

원하는 지역의 카페(맛집) 리스트 크롤링 for문 질문

0

320

1

셀레늄 사용시 W3C 에러 문제

0

266

1

수업관련 문의

0

333

3

오류무시 code 관련

0

255

1

위도 경도 가져오기

0

359

1

encoding 해결 방법

0

298

1

대량의 뉴스데이터를 보고싶다면 어떻게 해야하나요?

0

328

1

자바스크립트 및 iframe으로 구성되어 있는 웹페이지 크롤링 문의

0

442

1

어떤 문제로 인해 na 가 발생하는걸까요? 블로그 크롤링 부분입니다.

0

355

2

이미지 크롤링 개수를 80개 이상으로 하는 방법도 있을지요?

0

330

2

혹시 셀레니움을 스레드로 이용 할 수 있을까요?

0

539

1

네이버는 셀레니움을 통해 로그인할 경우 캡챠가 무조건 떠서 불가능하네요

1

677

5

셀레니움을 사용하지 않고 로그인을 하는 방법은 없나요?

0

242

2

웹 크롤링 방법

0

193

1

readlines. htmltab, readhtmltable 구별해 사용하는 방법?

0

272

2