• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 엔지니어링

  • 해결 여부

    미해결

트위터 크롤링 관련해서 질문이 있습니다!

20.07.24 14:41 작성 조회수 212

0

안녕하세요. 트위터를 크롤링 할 때 어려움이 있어서 질문 드립니다!

트위터를 크롤링 해 보니 한 페이지에 있는 텍스트만 크롤링이 돼서 많은 양의 데이터가 크롤링 되지 않았습니다.
제 생각에 트위터는 스크롤을 내려야 다음 트윗이 보이는 특징 때문에
스크롤을 내리는 코드를 지시해야 여러 트윗이 크롤링이 될 것 같아요

스크롤을 내리는 동작 코드 혹은 더 많은 양의 트윗을 크롤링 할 수 있는 방법이 있을까요?

그리고 동적 웹페이지 크롤링에서 다음 기사 댓글 부분도 추천댓글 기능이 디폴트로 되어있는데

추천 댓글은 양이 정해져 있어서 원하는만큼의 양의 댓글을 크롤링 할 수 없는 것 같아요.

그래서 최신순 버튼을 누르는 버튼을 추가해서 코드를 짜봤는데 강의에 도움이 될까 싶어서 말씀드려요!

답변 1

답변을 작성해보세요.

0

안녕하세요. 우선 이렇게 다양한 케이스에 대해 말씀해주셔서 감사합니다. 또한 강의 내용을 기반으로 일종의 코드 개선을 하신 부분도 정말 잘하신것같고, 이후에는 왠만한 사이트는 모두 크롤링이 되실것 같아서, 굉장히 히 기쁘네요.

다음으로, 아무래도 프로그램을 작성하다보면, 각자 다른 생각이 있을 수 있고, 원하는 바에 따라 이런 기능이 있었으면 좋겠다는 생각을 하실 수 있습니다. 그런 부분들을 미리 예단해서 설명을 하다보면, 굉장히 복잡해질 수 있는데, 그래도 괜찮긴 한데, 그렇게 하다보면, 난이도의 단계를 넘어서는 부분이 생기고, 그러다보면 또 너무 어렵다, 이해못하겠다라는 수강생분도 생기긴 해요. 

그래서 가장 보편적인 선에서, 복잡도를 넘어서지 않는 선에서 기능을 구현하고, 코드를 설명드린 부분이 있기는 합니다.

스크롤 기능이 가능하긴 한데요. 이 부분이 각 웹페이지마다 굉장히 다양하고, 해당 페이지에 적합하게 만들어야 하고, 그렇게 해도 다른 웹페이지에서는 정상 동작이 안되는 어려움이 있습니다. 또 실제 웹페이지는 자꾸 변경이 되다보니, 스크롤까지 엮이면, 실제 웹페이지의 경우는 매번 다른 이야기를 할 수 있는 어려움도 있기는 합니다.

일단은 말씀하신 기능은 다음 링크를 참고하시면 좋긴 한데, 트위터 웹페이지가 수시로 변경되서, 이 부분은 한번 확인해보시면 좋을 것 같습니다.

https://stackoverflow.com/questions/51717120/twitter-scroll-down-of-all-posts-using-selenium-python

다음 댓글 기능은 그동안은 변경된 부분이 없었는데, 역시 살짝 변경이 된 부분이 있을 수도 있을 것 같습니다. 그렇다고 하더라도 큰 맥락에서 그렇게 여러 동적 데이터를 크롤링하는 기술을 보여드린 예에서는 크게 무리가 없는 것 같아요. 댓글 전체를 가져오는 것 자체가 목적인 아닌 부분도 있어서요. 

말씀하신 부분에 대해서는 참고하겠습니다.

감사합니다.