R로 하는 웹 크롤링 - 입문편
R로 하는 웹 크롤링 - 입문편
수강정보
(15개의 수강평)
141명의 수강생
33,000원
지식공유자 : 코코
16회 수업 · 총 3시간 26분 수업
기간 : 평생 무제한 시청
수료증 : 발급 강의
수강 난이도 : 입문
이지인 프로필

("?<=).*(?=)") 활용 정규식 작성법 문의 이지인 2달 전
안녕하세요,  str_extract 정규식 이용해서  아래코드에서 타이틀만 추출하려고 할 경우  정규식 작성 방법 문의드립니다. title=\"언론권력이 검찰권력과 손잡을 때 벌어지는 일들\">"     아마도 title=\"로 시작해서 \">" 사이 값을 추출할 수 있도록 작성해야하는데 특수문자가 섞여있어서 헷갈리네요.  추가로 알려주신 정규식 이용해서 특정 문자열 추출하는게 초급자 입장에서 다소 어려운 것 같은데 혹시 더 쉽게 추출할 수 있는 방법이 있을까요?

1
백영은 프로필

클리앙 크롤링-1 질문 백영은 2달 전
게시글의 제목을 불러오는 부분에서 막혔는데요. 현재, 아래와 같이 subject_fixed 로 데이터를 불러오면 아래와같이 나오게됩니다. --------------------------------------------------------------------------------------------------------- > b2<-b[str_detect(b,"subject_fixed")] > b2  [1] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"바퀴달린 음악중심\">"                                        [2] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"간만에 음중 처음부터 보는데...노래들이..가수들이...;;;;\">"  [3] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"현금가 좀 싫네요ㅠㅠ\">"                                     [4] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"설문조사 업체가 20분간격으로 전화하네요.\">"                 [5] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"오랜만에 음악중심 보네요\">"                                 [6] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"지금 음중 나오는 노래...\">"                                 [7] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"우유 드시면 소화 잘되시나요??\">"                            [8] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"정신나가기 시작한 강원도 토지 값\">"                         [9] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"휴대폰 전면 카메라 자주 쓰시나요??\">"                      [10] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"아니 제이블랙 형님 앨범냈어요?!\">"                         --------------------------------------------------------------------------------------------------------- 따라서 수업에서 진행한 아래와 다른 시작과 끝을 지정해줘야할 것 같아서 아래와 같이 짰는데 안돌아가네요... 뭐가 문제인걸까요 ㅠㅠ > title<-str_extract(b2,("(?<=\title=\").*(?=">"")) Error in UseMethod("type") :    no applicable method for 'type' applied to an object of class "logical"

1
sejin1221 프로필

클리앙 크롤링 2에서 질문있습니다. sejin1221 3달 전
for문 돌릴 떄 1. content라는 변수를 NULL로 선언하는 것과 c()로 하는 것의 차이가 있나요? 2. for문 중에서 content<-c(content, b6) 대신 rbind(content, b6)로 하면 content앞에 b6라는 문자가 다 붙는 오류가 나는데  왜 그런건가요?

1
Yug Jin Kim 프로필

클리앙 싸이트 크롤링 질문 드립니다. Yug Jin Kim 5달 전
클리앙 싸이트 크롤링을 해보니 hit는 안 맞는듯합니다. 나중에 시간날때 확인한번 해주세요.. 공지사항이  2개가 있어서 그런것 같은데... 나머지는  잘되고.. 그래도 하나 하나 잘 배웠습니다. 감사합니다.

1
GKTJD 프로필

네이버 주식 크롤링 (1) 질문드립니다. GKTJD 5달 전
네이버 주식 크롤링 (1) 질문드립니다. b<-htmltab(url, encoding="UTF-8") 코드 입력하면  Argument 'which' was left unspecified. Choosing first table. 라고 에러가 나오면 어떡해야 하나요?

2
growingtak 프로필

str_extract 자세하게 설명좀 해주세요 growingtak 5달 전
str_extract(b2,("?<=|">.*......)이부분 자세히 설명해주세요....대충 설명하고 넘어가셔서..이해를 못하겠어요 ㅠ 다른 사이트에서 이용 못할것같아요 ㅜ

1
강선미 프로필

네이버 실시간 검색어 크롤링 질문드립니다. 강선미 6달 전
네이버 메인에서 페이지 소스 보기를 해도 이제 더이상 실시간 검색어가 찾아지질 않습니다. 이 경우에 어떻게 크롤링해야 하는지 궁금합니다. 두번째 질문은 네이버 데이터랩 자료를 크롤링하려고 하는데, 자꾸 불완전한 마지막 행이 발견되었다는 에러메시지가 뜹니다. 소스 코드로는  url<-"https://datalab.naver.com/keyword/realtimeList.naver?where=main" b<-readLines(url,encoding="UTF-8") 를 입력하였는데, 이 경우 b의 값이 제가 아는 페이지 소스값과 너무 다르게 나와서 혼란스러운데 이 경우 데이터랩의 자료를 어떻게 가져와야 하나요?

1
HM K_cat 프로필

게시판의 내용 중 한글만 찾기 표현 HM K_cat 8달 전
readLines, str_extract 함수를 사용한 방법으로 게시판의 내용을 크롤링해보려고 합니다.  게시판에는 한글과 영어로 쓰여져 있는데, 한글문장만 가져오려면 어떤 정규식을 사용해야 하는 지문의드립니다.

1
코딩하는 다람쥐 프로필

m3.csv 파일 저장 후 pc에서 열면 한글이 깨져요. 코딩하는 다람쥐 2019.07.16
m3.csv 파일을 저장해서 pc에서 csv파일을 열면, '홀수', '짝수' 와 같은 한글이 깨져서 열립니다. 어떻게 해야 한글이 그대로 저장되나요?  

1
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스