Thumbnail
BEST 개발 ・ 프로그래밍 프로그래밍 언어
R로 하는 웹 크롤링 - 실전편
(4.8)
5개의 수강평 ∙ 123명의 수강생

44,000원

지식공유자 : 코코
총 21개 수업˙총 5시간 12분
평생 무제한 수강
수료증 발급 강의
초급 대상
내 목록 추가 157 공유
Seung Woo Ha 프로필

원하는 지역의 카페(맛집) 리스트 크롤링 for문 질문 Seung Woo Ha 1달 전
안녕하세요 위와 같이 코딩을 했을 시, for문이 아닌 i에 1, 2, 3을 각각 넣어서 했을 때는 오류가 없는데 For문을 넣어서 진행하면 아래와 같은 오류가 발생합니다. 

1
jhdia 프로필

원하는 지역의 카페(맛집) 리스트 크롤링 10:09분경 질문 jhdia 1달 전
1. 윗 부분 코드에는 name,id,x,y,address를 찾기 위해서 list앞에 [[1]]를 일괄적으로 붙이는 건 이해가 가는데, 아래의 sapply 부분 코드에서의 function부분을 보면 [[1]]가 없는데 왜 그런지 잘 이해가 가지 않습니다.  b2$result$site$list[[1]]가 아니라 b2$result$site$list를 입력값으로 받는거면 함수에 적용되는 식도 b2$result$site$list$name 등 이런 식이 아닌가요? 따로 b2$result$site$list$name을  시도해봤는데 오류가 뜨고.. 즉 함수의 입력값에 들어가는 값이 x[[1]]가 아니라 단순히 x로 들어가는 것 같은데 왜 정상적으로 실행이 되는건지 원리가 잘 이해가 안가네요. 2. 왜 이런 오류가 뜨는 지 잘 모르겠네요. 첫번째 키워드(신촌 카페)는 잘 수집되는데 두 번쨰부터 막히는 것 같습니다. 키워드를 바꿔서 해봤는데도 항상 두 번째 키워드만 시행이 안됩니다. HTTP 404 오류가 발생했다고해서 사이트에 직접 접속해보면 문제없이 되서 무엇이 문제인지 잘 모르겠습니다.  감사합니다

1
Steady 프로필

셀레늄 사용시 W3C 에러 문제 Steady 1달 전
안녕하세요, 알려주신 강의를 잘 활용하고 있는 수강생입니다. 최근 셀레늄을 사용하여 웹사이트 크롤링을 시도하는 과정에 아래와 같은 문제가 발생하고 있는데요, "Cannot call non W3C standard command while in W3C mode" Build info: version: '3.141.59', revision: 'e82be7d358', time: '2018-11-14T08:25:53'System info: host: '761e5aa9c257', ip: '172.17.0.2', os.name: 'Linux', os.arch: 'amd64', os.version: '5.4.0-1028-gcp', java.version: '1.8.0_265'Driver info: driver.version: unknownError: Summary: UnknownCommand Detail: The requested resource could not be found, or a request was received using an HTTP method that is not supported by the mapped resource. class: org.openqa.selenium.UnsupportedCommandException Further Details: run errorDetails method 혹시 이 문제에 대해 해결책을 알 수 있을까요?

1
habeaury 프로필

수업관련 문의 habeaury 3달 전
선생님 안녕하세(요. 다름이 아니라, 질문 하나 드리고 싶습니다. 제가 네이버  카페 텍스트 마이닝을 하려고 하는데, 일단 기사 관련해서 텍스트 마이닝은 할 수 있는 실력 수준입니다. 궁금한 점은 네이버 카페 같은 경우 웹스크래핑이나 크롤링을 선생님 강의에 올려주신 다음 카페나 네이버 블로그 하는 방식처럼 하면 되는 건가요?   강의와 관련있는 질문을 남겨주세요.• 강의와 관련이 없는 질문은 지식공유자가 답변하지 않을 수 있습니다. (사적 상담, 컨설팅, 과제 풀이 등)• 질문을 남기기 전, 비슷한 내용을 질문한 수강생이 있는지 먼저 검색을 해주세요. (중복 질문을 자제해주세요.)• 서비스 운영 관련 질문은 인프런 우측 하단 ‘문의하기’를 이용해주세요. (영상 재생 문제, 사이트 버그, 강의 환불 등) 질문 전달에도 요령이 필요합니다.• 지식공유자가 질문을 좀 더 쉽게 확인할 수 있게 도와주세요.• 강의실 페이지(/lecture) 에서 '질문하기'를 이용해주시면 질문과 연관된 수업 영상 제목이 함께 등록됩니다.• 강의 대시보드에서 질문을 남길 경우, 관련 섹션 및 수업 제목을 기재해주세요. • 수업 특정 구간에 대한 질문은 꼭 영상 타임코드를 남겨주세요! 구체적인 질문일수록 명확한 답을 받을 수 있어요.• 질문 제목은 핵심 키워드를 포함해 간결하게 적어주세요.• 질문 내용은 자세하게 적어주시되, 지식공유자가 답변할 수 있도록 구체적으로 남겨주세요.• 정확한 질문 내용과 함께 코드를 적어주시거나, 캡쳐 이미지를 첨부하면 더욱 좋습니다. 기본적인 예의를 지켜주세요.• 정중한 의견 및 문의 제시, 감사 인사 등의 커뮤니케이션은 더 나은 강의를 위한 기틀이 됩니다. • 질문이 있을 때에는 강의를 만든 지식공유자에 대한 기본적인 예의를 꼭 지켜주세요. • 반말, 욕설, 과격한 표현 등 지식공유자를 불쾌하게 할 수 있는 내용은 스팸 처리 등 제재를 가할 수 있습니다. 

3
김병수 프로필

오류무시 code 관련 김병수 7달 전
k <- 1content <- c() for(k in 52:length(fin_url)){ if(class(try(b <- readLines(fin_url[k], encoding = "UTF-8"))) == "try-error"){ cont <- ""content <- c(content,cont) } else{ aindex <- which(str_detect(b,"</figure>")) bindex <- which(str_detect(b, "<div class=\"foot_view\" data-cloud-area=\"addition\">")) b2 <- paste(b[aindex:bindex], collapse = " ") cont <- str_trim(gsub("<.*?>","",b2)) content <- c(content,cont) cat("\n",k) } 연속으로 진행되지 않고 잘리는 상황이 지속됩니다. 오류 무시가 작동을 하지 않는 이유를 모르겠습니다. 오타인지요?

1
김병수 프로필

위도 경도 가져오기 김병수 7달 전
Encoding(keycard)를 하면 UTF-8 이 나오고 iconv(keyward, from = "CP949", to = "UTF-8") > NA #가 나옵니다. from과 to를 변경하여 보면 전혀 다른 문자가 나옵니다. 해결 방법이 없을 지요? 계속 예기에서 막혀서 진행이 않됩니다. 

1
김병수 프로필

encoding 해결 방법 김병수 8달 전
encoding을 euc-kr로 변경했으나 글자가 깨집니다. 다른 방법이 없을지요! 저는 맥을 사용하는데 os때문에 해결되지 않는 것인지 알고 싶습니다. 

1
habeaury 프로필

대량의 뉴스데이터를 보고싶다면 어떻게 해야하나요? habeaury 9달 전
선생님 안녕하세요. 뉴스데이터를 일별로 보는 것이 아니라 몇천 개 정도 되는 데이터를 보고싶은데 그렇다면 먼저 엑셀파일에 정리하고 시작을 하나요? 제가 코로나 관련 뉴스 데이터를 보고싶은데 좀 난감해서요 빅카인즈로 분석해볼까 고민도 했는데 그것도 쉽지 않아서 혹시 분석하는 방법 알려주실 수 있나요..?

1
Steady 프로필

자바스크립트 및 iframe으로 구성되어 있는 웹페이지 크롤링 문의 Steady 9달 전
안녕하세요, 네이버 금융의 종목분석 페이지에 나와 있는 재무정보를 크롤링하고자 하는데 문제에 부딪쳐 문의 드립니다. (https://finance.naver.com/item/coinfo.nhn?code=005930)  아래 두 가지 방법으로 크롤링을 시도해보았습니다. 1) 강의에서 말씀하신 숨겨진 주소를 찾아서 크롤링 : 크롬 개발자 도구에서 Network 검사를 통해 숨겨진 주소를 확인하고 (이 경우 네이버가 지속적으로 인증값을 바꿈) JSON 형식으로 된 재무정보를 깔끔하게 불러들일 수 있으나, 인증값이 계속 바뀌기 때문에 이 부분을 핸들링 하는 것이 어려움. 따라서 아래 셀레니움을 이용한 방식을 사용하고자 하는데요, 2) 셀레니움을 통한 크롤링 : 따라서 셀레니움을 통해 크롤링을 시도했으나 소스가 iframe으로 보호되어 크롤링이 어렵습니다. 개발자도구에서 버튼의 xpath를 확인해도 정작 R에서는 읽어들이지 못하고 (iframe으로 숨겨진 탓으로 보입니다) css selector라는 크롬 익스텐션으로는 아예 재무정보 부분이 블록되어 있어서 제대로 된 xpath를 읽지 못합니다. 이 경우 핸들링을 어떻게 해야 할까요? 셀레니움 강의 부분은 짧아서 다른 정보를 찾아봤지만 파이썬으로 내용이 많이 나와 R과는 조금 다른 듯 합니다.

1
tkddbs7279 프로필

어떤 문제로 인해 na 가 발생하는걸까요? 블로그 크롤링 부분입니다. tkddbs7279 10달 전
keyword<-"신촌 맛집" > keyword <- iconv(keyword, from = "CP949", to ="UTF-8") > keyword [1] NA

2
아쿠아라이드 프로필

이미지 크롤링 개수를 80개 이상으로 하는 방법도 있을지요? 아쿠아라이드 10달 전
안녕하세요? 많은 것을 배워가고 있습니다. 알차고 훌륭한 강의 정말 감사드립니다..! 한가지 질문은 이미지 크롤링시, 아마도 daum 의 웹사이트 특성 상 처음 80개 까지만 담기는 것 같은데.... 실제로 다음에서 이미지 검색을 해 보면 80개 이상의 이미지를 볼수는 있어서.... 크롤링에서도 80개 이상의 이미지를 크롤링할 수 있는 방법이 있을지 문의드립니다. 감사합니다! 

2
정권호 프로필

혹시 셀레니움을 스레드로 이용 할 수 있을까요? 정권호 10달 전
셀레니움으로 여러개의 파어이 폭스창을 띄우는건 가능한데 그 창들을 동시에 사용하고 싶은데 방법이 있을까요?

1
정권호 프로필

네이버는 셀레니움을 통해 로그인할 경우 캡챠가 무조건 떠서 불가능하네요 정권호 11달 전
파이썬의 경우 키조합으로 ctrl+c 와 ctrl+v를 만들어서 캡챠를 우회 하더군요 R에서는 불가능 한걸까요?

5
정권호 프로필

셀레니움을 사용하지 않고 로그인을 하는 방법은 없나요? 정권호 11달 전
셀레니움을 사용하지 않고 네이버에 로그인을 하고싶은데 어떤 방법이 있을까요

2
jong suk choi 프로필

웹 크롤링 방법 jong suk choi 11달 전
SelectorGadget을 이용햐서 크롤링하는 방법에 대해서 설명 부탁드립니다. 훨씬 편리한데...

1

44,000원

내 목록 추가 157 공유
지식공유자 : 코코
총 21개 수업˙총 5시간 12분
평생 무제한 수강
수료증 발급 강의
초급 대상
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스