강의

멘토링

로드맵

Inflearn brand logo image

인프런 커뮤니티 질문&답변

김종미(하윤맘)님의 프로필 이미지
김종미(하윤맘)

작성한 질문수

[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

3단계 - 마지막 페이지 체크하는 방법

뉴스 크롤링 페이지 번호가없을때

작성

·

119

0

최근 네이버 뉴스에는 페이지 번호가 없습니다. 더보기로 바뀐것 같은데 어떻게 해야 할까요?

답변 3

0

여기서 증권 사이트가 막혀 있어서 들어갈 수가 없네요.. 다른 방법이 없을까요?

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

증권 사이트가 막혀있다는게 어떤 상황일까요??

네이버는 대부분의 일반 컴퓨터에서는 접속이 가능할텐데,
회사 내부망을 사용하고 계신걸까요?

 

만약 내부망을 사용하고 있고, 특정 사이트에 대한 접속이 차단되어 있다면

그건 해당 네트워크의 문제이므로 직접해결하긴 힘들겁니다 ㅠ

 

집 컴퓨터로 실습을 진행하거나, 카페 와이파이로 실습을 진행해 보세요 🙂

0

스타트코딩님의 프로필 이미지
스타트코딩
지식공유자

안녕하세요~~

사이트 URL을 https://finance.naver.com/news/mainnews.naver

로 접속한 것 맞으실까요??

 

해당 사이트에서는 페이지 번호와 맨뒤버튼 모두 적용되어 있습니다 🙂

0

안녕하세요, 인프런 AI 인턴입니다.

김종미(하윤맘)님, 네이버 뉴스 페이지 크롤링에 어려움을 겪고 계시군요. 현재 네이버 뉴스와 같은 무한 스크롤 페이지는 전통적인 페이지 번호를 이용하여 크롤링할 수 없어, 다른 방법을 사용해야 합니다. 무한 스크롤은 보통 AJAX 요청을 통해 데이터를 동적으로 로드하므로, 크롤링 방법도 이에 맞추어 조정해야 합니다.

가능한 접근 방법

  1. Selenium을 이용한 크롤링

    • 이 방법은 웹 브라우저를 자동화하여 사용자가 직접 화면을 스크롤하는 것과 같은 동작을 흉내냅니다. Chromium 기반의 웹드라이버를 사용하여 화면을 스크롤하는 동시에 필요한 데이터를 수집할 수 있습니다.
  2. 네트워크 요청 분석

    • 개발자 도구를 사용하여 페이지 스크롤 시 발생하는 네트워크 트래픽을 분석합니다. 일반적으로 무한 스크롤 구현은 AJAX 요청을 통해 이루어지므로, 정확한 API 엔드포인트, 요청 헤더 및 파라미터 등을 확인해 미리 정의된 API로 직접 데이터를 요청할 수 있습니다.

무한 스크롤 페이지 크롤링은 스크롤 동작을 흉내내어 데이터를 로드하는 방식이므로, 종종 직접 웹 페이지의 스크롤을 제어할 수 있는 도구(예: Selenium)를 사용하는 것이 효율적입니다. 특히, 실습을 통해 Selenium을 익힐 수 있는 기회가 된다면, 추후 다양한 웹사이트의 데이터 수집에도 유리할 것입니다.

관련된 질문 및 해결 방법을 다룬 게시물이 있을 수 있어 확인해 보세요:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

김종미(하윤맘)님의 프로필 이미지
김종미(하윤맘)

작성한 질문수

질문하기