inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

R로 하는 웹 크롤링 - 입문편

클리앙 크롤링-1 질문

200

백영은

작성한 질문수 3

0

게시글의 제목을 불러오는 부분에서 막혔는데요.

현재, 아래와 같이 subject_fixed 로 데이터를 불러오면 아래와같이 나오게됩니다.

---------------------------------------------------------------------------------------------------------

> b2<-b[str_detect(b,"subject_fixed")]

> b2

 [1] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"바퀴달린 음악중심\">"                                      

 [2] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"간만에 음중 처음부터 보는데...노래들이..가수들이...;;;;\">"

 [3] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"현금가 좀 싫네요ㅠㅠ\">"                                   

 [4] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"설문조사 업체가 20분간격으로 전화하네요.\">"               

 [5] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"오랜만에 음악중심 보네요\">"                               

 [6] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"지금 음중 나오는 노래...\">"                               

 [7] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"우유 드시면 소화 잘되시나요??\">"                          

 [8] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"정신나가기 시작한 강원도 토지 값\">"                       

 [9] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"휴대폰 전면 카메라 자주 쓰시나요??\">"                     

[10] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"아니 제이블랙 형님 앨범냈어요?!\">"                        

---------------------------------------------------------------------------------------------------------

따라서 수업에서 진행한 아래와 다른 시작과 끝을 지정해줘야할 것 같아서

아래와 같이 짰는데 안돌아가네요... 뭐가 문제인걸까요 ㅠㅠ

> title<-str_extract(b2,("(?<=\title=\").*(?=">""))

Error in UseMethod("type") : 

  no applicable method for 'type' applied to an object of class "logical"

R 웹-크롤링

답변 1

0

코코

안녕하세요 . 백영은 님

모든 프로그래밍 언어가 마찬가지 이지만, 프로그래밍 언어 내에서 " > /  [ ] ) 와 같은 문자는 기본적으로 문자가 아니라 특수한 기능을 가지고 있습니다. 예를들어 R에서 [ ] 는 요소 index(강의에서는 방이라는 표현을 사용했습니다) 에 접근하는데에 쓰이죠

그리서 저 예제를 보면

[10] "\t\t\t\t\t\t<span class=\"subject_fixed\" data-role=\"list-title-text\" title=\"아니 제이블랙 형님 앨범냈어요?!\">"     

맨 뒤에 ">" 문자가 있는데 이를 그냥 R에서 사용하게 되면 특수 기능을 가지는 문자로 인식을 하게 됩니다.

그래서 최대한 이러한 문자를 피해서 작업해주시는게 좋습니다.

아래와 같은 코드를 이용해보시면 어떨까 싶습니다.

str_sub(str_extract(b2,"(?<=title=).*(?=>)"),2,end=-2)

클리앙 강의 시 문의 드립니다.

0

258

0

반복문 활용편 질문

0

291

0

크롤링 후 > character(0) 만 도출....ㅠㅠㅠ

0

326

0

readHTMLTable error

0

331

1

데이터 프레임 오류

0

433

1

str(m3)결과 문의

0

348

1

구글플레이 리뷰 크롤링

0

404

1

예제 파일은 없나요

0

203

0

html함수가 실행되지 않아요

0

262

1

readHTMLTable이 안되서..ㅠ

0

348

2

htmltab 라이브러리 삭제 ... readHTMLTable() 도 안되네요..

0

422

3

클리앙 크롤링 실습 중 문의사항

0

537

1

Rstudio 에서 한글로 작성한 주석이 깨집니다.

0

516

3

반복문 활용하기에서 질문 있습니다.

0

290

1

csv 한글깨짐 현상

0

560

1

클리앙 크롤링-1 총결과를 출력할 때

0

350

1

data frame 질문

0

1708

1

질문이 있습니다.

0

553

1

클리앙 크롤링-1 hit 관련 질문

0

276

1

("?<=).*(?=)") 활용 정규식 작성법 문의

0

363

1

클리앙 크롤링 2에서 질문있습니다.

0

185

1

클리앙 싸이트 크롤링 질문 드립니다.

0

195

1

네이버 주식 크롤링 (1) 질문드립니다.

0

370

3

str_extract 자세하게 설명좀 해주세요

1

233

1