inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

R로 하는 웹 크롤링 - 입문편

클리앙 크롤링-1

("?<=).*(?=)") 활용 정규식 작성법 문의

363

이지인

작성한 질문수 1

0

안녕하세요, 

str_extract 정규식 이용해서  아래코드에서 타이틀만 추출하려고 할 경우  정규식 작성 방법 문의드립니다.

title=\"언론권력이 검찰권력과 손잡을 때 벌어지는 일들\">"    

아마도 title=\"로 시작해서 \">" 사이 값을 추출할 수 있도록 작성해야하는데 특수문자가 섞여있어서 헷갈리네요. 

추가로 알려주신 정규식 이용해서 특정 문자열 추출하는게 초급자 입장에서 다소 어려운 것 같은데 혹시 더 쉽게 추출할 수 있는 방법이 있을까요?

R 웹-크롤링

답변 1

0

코코

안녕하세요 이지인님.

이지인님께서 말씀하신것처럼 뽑고자 하는 텍스트 대상에 특수문자 등이 들어가게 되면 헷갈릴수 밖에 없겠죠?

모든 프로그래밍 언어가 마찬가지 이지만, 프로그래밍 언어 내에서 " > /  [ ] ) 와 같은 문자는 기본적으로 문자가 아니라 특수한 기능을 가지고 있습니다. 예를들어 R에서 [ ] 는 요소 index(강의에서는 방이라는 표현을 사용했습니다) 에 접근하는데에 쓰이죠

그리서 저 예제를 보면

title=\"언론권력이 검찰권력과 손잡을 때 벌어지는 일들\">"      

맨 뒤에 ">" 문자가 있는데 이를 그냥 R에서 사용하게 되면 특수 기능을 가지는 문자로 인식을 하게 됩니다.

그래서 최대한 이러한 문자를 피해서 작업해주시는게 좋습니다.

아래와 같은 코드를 이용해보시면 어떨까 싶습니다.

str_sub(str_extract(b2,"(?<=title=).*(?=>)"),2,end=-2)

클리앙 강의 시 문의 드립니다.

0

258

0

반복문 활용편 질문

0

291

0

크롤링 후 > character(0) 만 도출....ㅠㅠㅠ

0

326

0

readHTMLTable error

0

331

1

데이터 프레임 오류

0

433

1

str(m3)결과 문의

0

348

1

구글플레이 리뷰 크롤링

0

404

1

예제 파일은 없나요

0

203

0

html함수가 실행되지 않아요

0

262

1

readHTMLTable이 안되서..ㅠ

0

348

2

htmltab 라이브러리 삭제 ... readHTMLTable() 도 안되네요..

0

422

3

클리앙 크롤링 실습 중 문의사항

0

537

1

Rstudio 에서 한글로 작성한 주석이 깨집니다.

0

516

3

반복문 활용하기에서 질문 있습니다.

0

290

1

csv 한글깨짐 현상

0

560

1

클리앙 크롤링-1 총결과를 출력할 때

0

350

1

data frame 질문

0

1708

1

질문이 있습니다.

0

553

1

클리앙 크롤링-1 hit 관련 질문

0

276

1

클리앙 크롤링-1 질문

0

200

1

클리앙 크롤링 2에서 질문있습니다.

0

185

1

클리앙 싸이트 크롤링 질문 드립니다.

0

195

1

네이버 주식 크롤링 (1) 질문드립니다.

0

370

3

str_extract 자세하게 설명좀 해주세요

1

233

1