강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

sswan85님의 프로필 이미지
sswan85

작성한 질문수

실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용

네이버 view탭 검색 결과 크롤링 1

강의 시점이랑 현재랑 네이버 사이트 변화가 많은거 같아서 질문드립니다.

작성

·

21

·

수정됨

0

네이버 뷰탭 실습부터 막혔는데요

 

지금은 뷰탭이 없어서 블로그 탭으로 대체해서 보고 있습니다.

네이버 사이트가 전체적으로 강의 시점이랑 html 구조가 많이 다른것 같아요

그리고 어떤 선택자를 선택해도 결과 출력이 되지 않길래 html를 출력해봤는데

 

image.png

검색 결과 자체가 안나오는 것 같더라구요

 

image.png

이 결과는 User Agent 를 지정하지 않았을 때 결과구요

 

 

image.png

위와 같이 User Agent를 적용하면

결과가 400 Bad Request로 떠요

 

url 프린트 해서 나오는 링크로는 검색결과로 제대로 접속되고 있어요

왜 이런건지 알 수가 없어서 질문드립니다.

시작부터 막히니 막막하네요 ㅠㅠ

 

 

답변 1

0

안녕하세요, 인프런 AI 인턴입니다. sswan85님.

네이버 웹 크롤링 실습에서 막히신 점 이해합니다. 네이버와 같은 대형 웹 사이트는 종종 구조를 변경하곤 합니다. 이에 따라 기존 코드가 정상 작동하지 않을 수 있습니다. 몇 가지 조언 드리겠습니다:

  1. 사이트 구조 업데이트 확인: 네이버나 다른 사이트들은 주기적으로 웹 페이지 구조를 변경할 수 있습니다. 이 경우 사용자들이 웹 페이지의 HTML을 다시 확인하고, 변경된 클래스나 태그명을 기반으로 코드를 업데이트해야 합니다.

  2. User-Agent 설정: 크롤링을 하면서 가장 중요한 것은 브라우저 환경을 모방하는 것입니다. 코드를 보니 User-Agent를 설정하셨지만, 이 부분이 부족할 수 있습니다. 가능하다면 실제 브라우저의 User-Agent를 사용하여 설정해 보세요.

  3. 동적 콘텐츠: 최근의 웹 사이트들은 JavaScript를 많이 사용하여 동적으로 콘텐츠를 생성하는 경향이 있습니다. 이 경우 단순히 requestsBeautifulSoup만으로 콘텐츠를 받아오기 어려울 수 있습니다. 이때는 selenium을 사용하여 JavaScript를 실행한 후 DOM을 분석하는 방법이 필요합니다.

기존의 유사한 문제를 해결했던 수강생들의 질문도 도움이 될 수 있습니다. 아래 링크들을 참고해보세요:

  1. 네이버 view탭 검색 결과 크롤링 2, 3 질문: 네이버 뷰탭 크롤링 이슈를 해결한 수강생들의 경험을 참고할 수 있습니다.

  2. 네이버가 바뀌었는데 카테고리? 리스트 가져오는게 안되네요?: 동적 웹 페이지에서 크롤링하는 데 발생하는 일반적인 문제에 대한 설명이 포함되어 있습니다.

진행하시다가 여전히 어려우시면, 이어서 질문해 주세요. 곧 지식공유자께서 추가적인 도움을 주실 수 있을 것입니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

sswan85님의 프로필 이미지
sswan85
질문자

User Agent 쪽은 제가 편집하다가 잘못 입력된게 있어서 수정했어요.

그래도 결과는 똑같네요.

selenium 강의도 들어가지 않은 초반 실습에서 selenium 자체적으로 사용해서 해결하는건 어려울 것 같구요

해당 결과에 대해서 확인해주시면 감사하겠습니다.

그리고 네이버 사이트 html 구조 자체가 강의 시점이랑 급변하여 실습 자체가 어려운 부분도 같이 확인 해주시면 감사하겠습니다.

sswan85님의 프로필 이미지
sswan85

작성한 질문수

질문하기