inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

현존 최강 크롤링 기술: Scrapy와 Selenium 정복

트위터 크롤링 관련해서 질문이 있습니다!

395

wannabe125

작성한 질문수 3

0

안녕하세요. 트위터를 크롤링 할 때 어려움이 있어서 질문 드립니다!

트위터를 크롤링 해 보니 한 페이지에 있는 텍스트만 크롤링이 돼서 많은 양의 데이터가 크롤링 되지 않았습니다.
제 생각에 트위터는 스크롤을 내려야 다음 트윗이 보이는 특징 때문에
스크롤을 내리는 코드를 지시해야 여러 트윗이 크롤링이 될 것 같아요

스크롤을 내리는 동작 코드 혹은 더 많은 양의 트윗을 크롤링 할 수 있는 방법이 있을까요?

그리고 동적 웹페이지 크롤링에서 다음 기사 댓글 부분도 추천댓글 기능이 디폴트로 되어있는데

추천 댓글은 양이 정해져 있어서 원하는만큼의 양의 댓글을 크롤링 할 수 없는 것 같아요.

그래서 최신순 버튼을 누르는 버튼을 추가해서 코드를 짜봤는데 강의에 도움이 될까 싶어서 말씀드려요!

웹-크롤링 scrapy selenium

답변 1

0

잔재미코딩 DaveLee

안녕하세요. 우선 이렇게 다양한 케이스에 대해 말씀해주셔서 감사합니다. 또한 강의 내용을 기반으로 일종의 코드 개선을 하신 부분도 정말 잘하신것같고, 이후에는 왠만한 사이트는 모두 크롤링이 되실것 같아서, 굉장히 히 기쁘네요.

다음으로, 아무래도 프로그램을 작성하다보면, 각자 다른 생각이 있을 수 있고, 원하는 바에 따라 이런 기능이 있었으면 좋겠다는 생각을 하실 수 있습니다. 그런 부분들을 미리 예단해서 설명을 하다보면, 굉장히 복잡해질 수 있는데, 그래도 괜찮긴 한데, 그렇게 하다보면, 난이도의 단계를 넘어서는 부분이 생기고, 그러다보면 또 너무 어렵다, 이해못하겠다라는 수강생분도 생기긴 해요. 

그래서 가장 보편적인 선에서, 복잡도를 넘어서지 않는 선에서 기능을 구현하고, 코드를 설명드린 부분이 있기는 합니다.

스크롤 기능이 가능하긴 한데요. 이 부분이 각 웹페이지마다 굉장히 다양하고, 해당 페이지에 적합하게 만들어야 하고, 그렇게 해도 다른 웹페이지에서는 정상 동작이 안되는 어려움이 있습니다. 또 실제 웹페이지는 자꾸 변경이 되다보니, 스크롤까지 엮이면, 실제 웹페이지의 경우는 매번 다른 이야기를 할 수 있는 어려움도 있기는 합니다.

일단은 말씀하신 기능은 다음 링크를 참고하시면 좋긴 한데, 트위터 웹페이지가 수시로 변경되서, 이 부분은 한번 확인해보시면 좋을 것 같습니다.

https://stackoverflow.com/questions/51717120/twitter-scroll-down-of-all-posts-using-selenium-python

다음 댓글 기능은 그동안은 변경된 부분이 없었는데, 역시 살짝 변경이 된 부분이 있을 수도 있을 것 같습니다. 그렇다고 하더라도 큰 맥락에서 그렇게 여러 동적 데이터를 크롤링하는 기술을 보여드린 예에서는 크게 무리가 없는 것 같아요. 댓글 전체를 가져오는 것 자체가 목적인 아닌 부분도 있어서요. 

말씀하신 부분에 대해서는 참고하겠습니다.

감사합니다.

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

626

1

scrapy를 jupyter 환경에서 할 수 있나요

0

360

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

313

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

0

221

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

0

279

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

335

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

292

3

PhantomJS 문의

0

294

1

selenium 문의

0

329

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3004

1

on error 해결 방법 질문

0

356

1

[팁] 윈도우 cmd 커맨드

0

347

1

[팁]Chrome User Agent 아는법

0

328

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

254

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

237

1

CSS Selector 에서 질문이 있습니다.

0

435

2

pip install scrapy 오류

0

484

1

셀레니움 실행불가

0

1578

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

227

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

287

1

강의교안자료 받을수있을까요?

0

263

1

[강의 9:27관련 질문] price, title 열 위치

0

160

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

368

1

css 셀렉터에 대해 질문이 있습니다.

0

147

1