inflearn logo
강의

Course

Instructor

Web Crawling with R - Practical Edition

보배드림 Community Crawling

readlines. htmltab, readhtmltable 구별해 사용하는 방법?

272

Steady

4 asked

0

크롤링 할때 사이트마다 사용하는 방법이 조금 다른 거 같은데, 사이트 속성을 보고 각각의 함수를 사용하는 기준이 있는지 궁금합니다.

R 웹-크롤링

Answer 2

0

Steady

감사합니다!

0

coco

안녕하세요. Steady님

크롤링을 하는 방법에는 해당 사이트가 어떻게 구성이 되어있는지에 따라 다릅니다.

커뮤니티와 같은 사이트는 크롤링하기 쉬운 대표적인 사이트로 일정규칙에 맞게 원하는 곳을 찾아내면 됩니다.

readhtmltable같은 경우는 크롤링 하고자하는 사이트가 table형태일 때 조금 수월하게 크롤링 할 수 있도록 도와주는 함수 입니다.

꼭 readhtmltable이 아니라 readLines를 통해서도 할 수 있지만, 다양한 형태로 크롤링 할 수 있다라는 것을 보여드리고자 하였습니다.

감사합니다. 

보배드림 content 관련 규칙 변경

0

394

0

readLines부터 에러가 뜨는데 어떻게 해야할까요 ㅜㅜ

0

314

0

에러 코드

0

387

2

최종 코드 입니다.

0

267

0

토큰을 제출해야 하는 사이트 크롤링

0

504

1

객체 'k'를 찾을 수 없습니다

0

366

1

소스코드

0

273

1

Referer

0

307

1

보베드림 강의 오류관련 질문입니다.

0

443

1

원하는 지역의 카페(맛집) 리스트 크롤링 for문 질문

0

320

1

원하는 지역의 카페(맛집) 리스트 크롤링 10:09분경 질문

0

381

1

셀레늄 사용시 W3C 에러 문제

0

266

1

수업관련 문의

0

333

3

오류무시 code 관련

0

255

1

위도 경도 가져오기

0

359

1

encoding 해결 방법

0

298

1

대량의 뉴스데이터를 보고싶다면 어떻게 해야하나요?

0

328

1

자바스크립트 및 iframe으로 구성되어 있는 웹페이지 크롤링 문의

0

442

1

어떤 문제로 인해 na 가 발생하는걸까요? 블로그 크롤링 부분입니다.

0

355

2

이미지 크롤링 개수를 80개 이상으로 하는 방법도 있을지요?

0

330

2

혹시 셀레니움을 스레드로 이용 할 수 있을까요?

0

539

1

네이버는 셀레니움을 통해 로그인할 경우 캡챠가 무조건 떠서 불가능하네요

1

677

5

셀레니움을 사용하지 않고 로그인을 하는 방법은 없나요?

0

242

2

웹 크롤링 방법

0

193

1