inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

현존 최강 크롤링 기술: Scrapy와 Selenium 정복

[다음 뉴스 기사의 댓글 가져오기1] 선택자

173

ses123you

작성한 질문수 7

0

강의 듣는 중에 바뀐 부분이 있어 알려드립니다~

[다음 뉴스 기사의 댓글 가져오기1] 에 선택자 마지막 부분이

alex-area > div > div > div > div.cmt_box > div.alex_more > a   에서

alex-area > div > div > div > div.cmt_box > div.alex_more > button

로 바뀌었습니다.

그리고 아래의 사이트 둘다 댓글 더보기 2번 클릭해서 총 20개정도 까지만 볼 수 있고,

이후에 댓글 자체가 아예 안나오게 되어 있어요.

 https://news.v.daum.net/v/20190709153227319?d=y 

https://news.v.daum.net/v/20190709165157301?d=y

강의와 관련있는 질문을 남겨주세요.
• 강의와 관련이 없는 질문은 지식공유자가 답변하지 않을 수 있습니다. (사적 상담, 컨설팅, 과제 풀이 등)
• 질문을 남기기 전, 비슷한 내용을 질문한 수강생이 있는지 먼저 검색을 해주세요. (중복 질문을 자제해주세요.)
서비스 운영 관련 질문은 인프런 우측 하단 ‘문의하기’를 이용해주세요. (영상 재생 문제, 사이트 버그, 강의 환불 등)

질문 전달에도 요령이 필요합니다.
• 지식공유자가 질문을 좀 더 쉽게 확인할 수 있게 도와주세요.
• 강의실 페이지(/lecture) 에서 '질문하기'를 이용해주시면 질문과 연관된 수업 영상 제목이 함께 등록됩니다.
• 강의 대시보드에서 질문을 남길 경우, 관련 섹션 및 수업 제목을 기재해주세요. 
• 수업 특정 구간에 대한 질문은 꼭 영상 타임코드를 남겨주세요!

구체적인 질문일수록 명확한 답을 받을 수 있어요.
• 질문 제목은 핵심 키워드를 포함해 간결하게 적어주세요.
• 질문 내용은 자세하게 적어주시되, 지식공유자가 답변할 수 있도록 구체적으로 남겨주세요.
• 정확한 질문 내용과 함께 코드를 적어주시거나, 캡쳐 이미지를 첨부하면 더욱 좋습니다.

기본적인 예의를 지켜주세요.
• 정중한 의견 및 문의 제시, 감사 인사 등의 커뮤니케이션은 더 나은 강의를 위한 기틀이 됩니다. 
• 질문이 있을 때에는 강의를 만든 지식공유자에 대한 기본적인 예의를 꼭 지켜주세요. 
반말, 욕설, 과격한 표현 등 지식공유자를 불쾌하게 할 수 있는 내용은 스팸 처리 등 제재를 가할 수 있습니다. 

scrapy 웹-크롤링 selenium

답변 1

0

잔재미코딩 DaveLee

안녕하세요. 확인해주셔서 감사합니다. 확인하였습니다.

다음 사이트 자체에서 더보기 버튼을 한번만 노출하고, 전체 댓글은 안보여주도록 사이트 자체를 바꾼 것으로 확인됩니다.

크롤링 코드를 많은 분들께서 테스트하다보니 그런듯합니다.

동적 크롤링 기술이 정상 동작하는지는 업데이트한 코드로 최대 댓글 20개까지 가능은 하니,

자료 업데이트하고, 공지하겠습니다. 감사합니다.

2020.10.06 코드/자료 변경 사항

  • 실전 사이트로 크롤링을 하고, 많은 분들께서 수강하시다보니, 다음측에서 댓글 크롤링을 제한한 듯 합니다.
  • 다음 사이트에서 이제부터는 댓글 더보기 버튼을 한번만 누를 수 있고, 전체 댓글을 볼 수 있는 메뉴 자체는 삭제하였습니다.
  • 더보기 버튼 태그도 일부 변경하여, 기존 코드로는 크롤링이 안되도록 변경하였습니다.
  • 다만, 더보기 버튼을 한번 누르고 댓글을 가져오는 기능은 가능하므로, 동적 크롤링 기술이 정상동작함은 기존과 같이 변경된 코드로 확인은 가능합니다.
    • 최대 댓글 20개까지 가져올 수 있고, 이후 댓글은 다음 사이트 자체에서도 제공하지 않습니다.
  • 코드 변경 사항: 태그가 '#alex-area > div > div > div > div.cmt_box > div.alex_more > a' 에서 '#alex-area > div > div > div > div.cmt_box > div.alex_more > button' 으로 변경되었습니다.

코딩을 잘 따라 한 것 같은데 오류가 발생하는 것 같습니다

0

626

1

scrapy를 jupyter 환경에서 할 수 있나요

0

360

1

[실전 크롤링: scrapy 크롤링 팁] 질문있습니다.

0

313

1

[실전 크롤링: 지마켓 크롤링하며, scrapy 실전 활용법 익히기1] 5분50초쯤 질문

0

221

1

[강력/최신 크롤링 기술: Scrapy 로 지마켓 크롤링하기1] 관련 질문

0

279

1

xml을 parsing할때 <을 &lt; 로 인식합니다.

0

335

1

pipelines.py에서 process_item내에서 print문이 작동을 하지 않네요 ㅠ

0

292

3

PhantomJS 문의

0

294

1

selenium 문의

0

329

1

브라우저 제어해서 크롤링하기 - 처음강의 마지막부분 문의

0

3004

1

on error 해결 방법 질문

0

356

1

[팁] 윈도우 cmd 커맨드

0

347

1

[팁]Chrome User Agent 아는법

0

327

1

실전 크롤링: 브라우저를 제어해서 트위터 사이트 로그인 하기 질문

0

254

1

동영상 강의 만드실 때 사용한 툴을 알려주실 수 있을까요?

0

237

1

CSS Selector 에서 질문이 있습니다.

0

435

2

pip install scrapy 오류

0

484

1

셀레니움 실행불가

0

1578

1

실전 크롤링: XPATH와 Selenium 활용해서 페이스북 로그인 하기 에서 질문이 있습니다.

0

226

1

언제 get_text()를 사용하고 또 언제 .text를 사용하나요?

0

287

1

강의교안자료 받을수있을까요?

0

263

1

[강의 9:27관련 질문] price, title 열 위치

0

160

1

div에 있는 클래스가 2개이면 어떻게 하나요?

0

368

1

css 셀렉터에 대해 질문이 있습니다.

0

147

1