원하는 지역의 카페(맛집) 리스트 크롤링 10:09분경 질문
381
작성한 질문수 11
1.
윗 부분 코드에는 name,id,x,y,address를 찾기 위해서 list앞에 [[1]]를 일괄적으로 붙이는 건 이해가 가는데, 아래의 sapply 부분 코드에서의 function부분을 보면 [[1]]가 없는데 왜 그런지 잘 이해가 가지 않습니다.
b2$result$site$list[[1]]가 아니라 b2$result$site$list를 입력값으로 받는거면 함수에 적용되는 식도 b2$result$site$list$name 등 이런 식이 아닌가요? 따로 b2$result$site$list$name을 시도해봤는데 오류가 뜨고..
즉 함수의 입력값에 들어가는 값이 x[[1]]가 아니라 단순히 x로 들어가는 것 같은데 왜 정상적으로 실행이 되는건지 원리가 잘 이해가 안가네요.
2.
왜 이런 오류가 뜨는 지 잘 모르겠네요.
첫번째 키워드(신촌 카페)는 잘 수집되는데 두 번쨰부터 막히는 것 같습니다. 키워드를 바꿔서 해봤는데도 항상 두 번째 키워드만 시행이 안됩니다. HTTP 404 오류가 발생했다고해서 사이트에 직접 접속해보면 문제없이 되서 무엇이 문제인지 잘 모르겠습니다.
감사합니다
답변 1
0
안녕하세요. 님 답변이 늦어서 대단히 죄송합니다.
크롤링은 기본적을 웹사이트 구조에 따라 달라지는데, 웹사이트 구조가 바뀌면 당연히 코드도 수정이 필요하게 됩니다.
현재 네이버지도의 경우 막히진 않았습니다만, 지속적인 web 호출을 차단하고 있는 것 같습니다.
readLines를 아래와 같이 수정해주시면 에러처리를 하면서 수집이 가능합니다.
if(class(try(b<-readLines(url,encoding="UTF-8")))=='try-error'){
}
보배드림 content 관련 규칙 변경
0
394
0
readLines부터 에러가 뜨는데 어떻게 해야할까요 ㅜㅜ
0
314
0
에러 코드
0
387
2
최종 코드 입니다.
0
267
0
토큰을 제출해야 하는 사이트 크롤링
0
504
1
객체 'k'를 찾을 수 없습니다
0
366
1
소스코드
0
273
1
Referer
0
307
1
보베드림 강의 오류관련 질문입니다.
0
443
1
원하는 지역의 카페(맛집) 리스트 크롤링 for문 질문
0
320
1
셀레늄 사용시 W3C 에러 문제
0
266
1
수업관련 문의
0
333
3
오류무시 code 관련
0
255
1
위도 경도 가져오기
0
359
1
encoding 해결 방법
0
298
1
대량의 뉴스데이터를 보고싶다면 어떻게 해야하나요?
0
328
1
자바스크립트 및 iframe으로 구성되어 있는 웹페이지 크롤링 문의
0
442
1
어떤 문제로 인해 na 가 발생하는걸까요? 블로그 크롤링 부분입니다.
0
355
2
이미지 크롤링 개수를 80개 이상으로 하는 방법도 있을지요?
0
330
2
혹시 셀레니움을 스레드로 이용 할 수 있을까요?
0
539
1
네이버는 셀레니움을 통해 로그인할 경우 캡챠가 무조건 떠서 불가능하네요
1
677
5
셀레니움을 사용하지 않고 로그인을 하는 방법은 없나요?
0
242
2
웹 크롤링 방법
0
193
1
readlines. htmltab, readhtmltable 구별해 사용하는 방법?
0
272
2





