• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 엔지니어링

  • 해결 여부

    미해결

정렬 옵션 바꾸기

21.01.03 05:25 작성 조회수 97

0

강사님 안녕하세요.

부트캠프부터 잘 듣고 있습니다, 좋은 컨텐츠 감사드려요.

다름이 아니라 다음 뉴스 댓글이 조금 바뀐 것 같더라고요.

이제는 추천댓글이라고 10개 남짓만 떠서 여러번 더보기 클릭이 안되고, 댓글 정렬 방식을 먼저 변경해야만 가능합니다.

그래서 "찬반순" 버튼의 태그를 뽑아 ActionChains로 클릭할 생각이었어요.

그런데 해당 버튼의 태그인 div.cmt_box > ul.list_category > li.on > button > span 가 페이지 소스에 존재하지 않더라고요. 꼭 동적 데이터처럼요.

아래가 페이지 소스 화면입니다.

왜 이렇게 나오는 건가요? 이 버튼들의 태그를 뽑아내는 것은 불가능할까요?

조언 부탁드립니다.

답변 1

답변을 작성해보세요.

0

안녕하세요. 말씀하신 부분은 자료와, 새소식에 일전에 공지를 드렸던 사안이예요.

추가로, 태그가 동적으로 생성되더라도, selenium 은 동적 태그를 선택하실 수 있습니다. selenium 이 동적 태그를 선택할 수 있는 기능때문에 사용하는 것이니까요. 우선은 이 부분이 이해가 안가신다면, 업데이트한 자료를 기반으로 하나의 뉴스를 한번의 댓글만 가져와서, 크롤링하는 기능에 우선 집중해 보시는 것이 좋을 것 같습니다. 말씀하신 코드를 제가 작성해서 공유하면, 다음측에서 또다시 웹페이지를 변경할 것 같습니다. 다음 뉴스를 엄청 크롤링하는 상황이 되서요. 그래서 이 부분은 코드 공유는 하지 않는 것이 여러모로 좋을 것 같습니다. 이 부분은 양해를 부탁드립니다.

감사합니다.

----------------

안녕하세요. 잔재미코딩 Dave Lee 입니다.

다음 뉴스 사이트 변경 관련 크롤링과 관련해서, 업데이트 사항을 공유드립니다.

최근,  다음 사이트 자체에서 더보기 버튼을 한번만 노출하고, 전체 댓글은 안보여주도록 사이트 자체를 바꾼 것으로 보입니다. 더보기 버튼 관련 태그도 변경이 있었습니다. 크롤링 코드를 많은 분들께서 테스트하다보니... 크롤링 자체를 막기 위함으로 보여집니다. 

다만, 동적 크롤링 기술이 정상 동작하는지는 업데이트한 코드로 최대 댓글 20개까지 가능은 하니, 관련 기술을 익히고, 테스트까지 해보는데에는 문제가 없습니다.

관련 코드/자료는 기존 코드/자료가 업로드된 다음 챕터에서 확인하실 수 있습니다.

- 실전 크롤링:댓글부대? 다음 뉴스 기사의 댓글 가져오기1

상세 코드 변경 사항

- 2020.10.06 코드/자료 변경 사항

  - 다음 사이트에서 이제부터는 댓글 더보기 버튼을 한번만 누를 수 있고, 전체 댓글을 볼 수 있는 메뉴 자체는 삭제하였습니다.

  - 더보기 버튼 태그도 일부 변경하여, 기존 코드로는 크롤링이 안되도록 변경하였습니다.

  - 다만, 더보기 버튼을 한번 누르고 댓글을 가져오는 기능은 가능하므로, 동적 크롤링 기술이 정상동작함은 기존과 같이 변경된 코드로 확인은 가능합니다.

  - 최대 댓글 20개까지 가져올 수 있고, 이후 댓글은 다음 사이트 자체에서도 제공하지 않습니다.

  - 코드 변경 사항: 태그가 '#alex-area > div > div > div > div.cmt_box > div.alex_more > a' 에서 '#alex-area > div > div > div > div.cmt_box > div.alex_more > button' 으로 변경되었습니다.