• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 엔지니어링

  • 해결 여부

    미해결

네이버카페 글쓰기 관련하여 질문이 있습니다.

21.03.12 03:03 작성 조회수 321

0

이제 듣기 시작하는 중인데

기존에 크롤링 몇번 해보다가 막혔던 거 질문이 있습니다.

좀 더 고급진 크롤링,

상대방이 어느정도 막으려고 해놓은 것도

크롤링 하는 리얼 크롤링은 어떻게 배울 수 있을까요?

가령 네이버 카페 글쓰기를 크롤링해보려고 하는데요.

selector로 크롤링하다보면

'#SE-a2c1290e-85ee-4ca3-8619-18f42b8b72f7 > div.se-wrap.se-dnd-wrap > div > div.se-popup.se-popup-banner.se-popup-banner-black-type > div.se-popup-container > button'

이런 게 나옵니다...

페이지에 들어갈때마다 

#SE-a2c1290e-85ee-4ca3-8619-18f42b8b72f7

이 부분이 바뀝니다.

단순히 css selector만 가지고는 크롤링이 막혀버립니다.

이것말고 예전에 다른 대형사이트도 크롤링 해보려고 했었는데, 

저런식으로 막으려고 한다던가,

react-virtualzied list 

같은 거 나오면

크롤링이 막힙니다....

이런 거는 어떤식으로 해야 크롤링 할 수 있을까요???

답변 1

답변을 작성해보세요.

0

안녕하세요.

우선 현업에서 크롤링은 필요한 데이터를 수집하는 목적으로, 안정적인 사이트등을 대상으로 크롤링을 진행하는 것이 일반적입니다. 크롤링으로 수집된 데이터도 법적인 범위 하에, 문제 없는 경우로만 사용을 하고요. 리얼 크롤링이라는 것이 혹시 막는 사이트를 뚫는 것을 의미하시는 것이라면, 각자의 정의는 다른 것 같습니다. 

또 카페 글쓰기? 는 네이버 카페에 글을 자동으로 쓰시려는 것을 말씀하시는 것인지 잘 모르겠습니다. 특히 네이버와 같이 대형 사이트가 크롤링을 풀어놓으면, 사이트 운영이 안될 정도가 될 수 있기 때문에, 다양한 방법으로 최대한 막아놓는 것이 어찌보면 당연한 것이니까요.

네이버 카페는 다음 API를 생각해보셔도 좋을 것 같고요.

https://developers.naver.com/products/cafe/

본 강의의 질문/답변란은 당연히 본 강의의 영상의 이해를 높이기 위해, 이해가 안되는 부분을 문의하시는 것이겠죠. 각자 원하는 사이트 크롤링을 문의하시는 것은 양해를 부탁드립니다. 저도 직접 다 해봐야 하는 것이기도 하니까요.

혹시라도, 자신이 원하는 사이트의 크롤링과 막아놓은 사이트를 뚫는 어떤 기술을 익히기를 원하신다면, 본 과정은 데이터 과학의 데이터 수집 기술을 익히기 위해, 중급 난이도의 데이터 수집 기술을 익히는 것을 목표로 하므로, 자신의 수강 목표가 맞는지는 확인을 해보시고, 정 맞지 않아서, 만족도가 높지 않다면, 수강을 더 하시기 전에 환불하셔도 괜찮습니다.

마지막으로 다음 '궁금한 점에 대한 답변 찾기 꿀팁' 글도 읽어보시면, 훨씬 도움이 되실 것 같습니다.
궁금한 점에 대한 답변 찾기 꿀팁!
궁금한 부분이 있거나, 문제가 있을 때, 항상 google.co.kr 에서 질문에 대해 검색해보세요! (아직까지는 네이버?로 검색하는 개발자는 없습니다.)
에러 메시지는 맨 마지막 라인을 복사해서 구글에서 검색해보시고, 질문에 대해서는 질문 관련 키워드들을 조합해서 구글에서 검색해보세요. 개발자들은 모두 이를 통해, 답변을 얻습니다. 한발짝 나아 가시려면, 반드시 이런 연습이 꼭 필요합니다.
저는 한가지 확인이 필요한 사안을 위해, 20 ~ 30분 검색과 10개 이상의 블로그를 찾아보는 일을 하루에도 한두번씩 한답니다.
검색이 처음이신 분들은 개발자를 위한 정보 검색 팁을 참고하시면 훨씬 성장하시는데 도움이 되실 것입니다.
두번째, 각 강의마다, 다른 분들께서도 이미 질문하신 사항들이 있습니다.
해당 부분을 확인해보시면, 답변을 기다릴 필요 없어서, 훨씬 도움이 되실 것 같습니다.
세번째, 각자 작성하신 코드 에러의 경우는
제가 제공해드린 코드자료를 수정하지 않고, 단계별로 그대로 실행해보신 후, 해당 코드와 자신의 코드가 어떤 부분이 다른지를 단계별로 확인해보시면, 훨씬 좋습니다.
키보드로 그대로 따라 치시기 보다, 제공해드린 코드를 그대로 복사해서 붙여넣고 테스트를 해보시면 좋고, 여기에서 자신의 코드와 다른 부분을 최대한 작게 쪼개서 조금씩 넣어보시면서, 테스트를 해보시면 가장 좋습니다. 각자 코드를 작성하신다면, 이렇게 작업해보시면 훨씬 도움이 되실꺼예요.
마지막으로, 질문하실 경우에는 어느 강의 영상의 어느 구간(가능하다면 몇분 몇초)에 대해 질문하시는 것인지 꼭 명기해주시면 좋습니다.
그래야 맥락이 이해가 가서, 보다 좋은 답변할 수 있습니다. 만약 구간 명기가 가능하지 않다면, 강의 영상 외적인 문의인지에 대해 확인 부탁드립니다. 본 질문 답변란은 강의 영상 이해를 돕기 위한 자리입니다. 강의 영상 외적인 부분은 양해를 부탁드립니다. 특히 극히 일부 개인별 코드 리뷰나 기능 구현등 무리가 되는 요청을 하시는 분들도 계셨는데, 좋은 강의가 선순환될 수 있도록 부탁드립니다.
잔재미코딩 Dave Lee 드림