inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)

셀레니움 환경설정

마지막 페이지 관련

318

창희

작성한 질문수 2

0

안녕하세요~! 몇가지 궁금증이 있어 문의 드립니다!

 

  1. 네이버 뉴스 기사가 페이지 넘버링이 아닌,

    스크롤식으로 변경된 것으로 확인됩니다.

    이러한 경우에는 마지막 기를 어떻게 확인할 수 있을까요? (

    굳이 마지막 페이지를 확인할 이유가 없을 것 같긴 하지만ㅎㅎ 그래도 궁금하네요 )

 

2.

f'https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query={keyword}&start={i}'

 

이전 강의에서 확인하였던, &start={i}을 추가하여 네이버 뉴스 기사 결과를 수집해본 결과, 계속해서 수집이 되긴 했습니다.

제 생각에는 연관도가 높은순 → 낮은순으로 출력되는 것 같은데 맞는지도 궁금하네용ㅎㅎ

python 웹-크롤링

답변 2

0

스타트코딩

저도 얼마전에 네이버 뉴스 페이지가 완전 바뀐 것을 보고

실전편을 리뉴얼 해야 겠다는 생각을 했습니다 🙂

 

수강생분이 똑똑하셔서 제대로 캐치하신 것 같아요

질문하신 내용 전부 맞습니다.

 

  1. 네이버 뉴스 기사가 페이지 넘버링이 아닌,

    스크롤식으로 변경된 것으로 확인됩니다.

    이러한 경우에는 마지막 기를 어떻게 확인할 수 있을까요? (

    굳이 마지막 페이지를 확인할 이유가 없을 것 같긴 하지만ㅎㅎ 그래도 궁금하네요 )

-> 무한 스크롤 처리 방식으로 구현 가능합니다

아래 유튜브 영상 5:55 을 참고해 보세요!

https://youtu.be/qRU94vtUb7c

 

검색량이 많은 검색어의 경우 끝도없이 내려가네요.

검색어가 적은 걸로 마지막페이지를 테스트해보면 좋을 거 같습니다.

ex) 미옹이

 

  1. 이전 강의에서 확인하였던, &start={i}을 추가하여 네이버 뉴스 기사 결과를 수집해본 결과, 계속해서 수집이 되긴 했습니다.

    제 생각에는 연관도가 높은순 → 낮은순으로 출력되는 것 같은데 맞는지도 궁금하네용ㅎㅎ

 

-> 신기하게도 네이버에서 기존 방식을 그대로 나뒀습니다 ㅋㅋ

기본 정렬방식이 관련도순으로 되어 있습니다. 관련도에 대한 정확한 알고리즘은 아무도 모릅니다.

그래서 순서는 항상 바뀔 수 있어요.


0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

창희님, 웹 크롤링과 관련하여 질문해주셨군요.

  1. 네이버 뉴스 기사가 스크롤 형식으로 변경된 경우, 일반적으로 마지막 페이지를 확인하는 것이 어려워집니다. 대신, API 응답이나 페이지 스크립트 등에서 종료 조건을 제공할 수 있습니다. 또는 특정 조건(예: 더 이상 데이터가 없을 때 나타나는 요소)이 출현할 때까지 페이지를 스크롤하며 데이터를 수집하는 방법이 사용될 수 있습니다.

  2. &start={i} 파라미터를 사용하여 페이지를 이동하며 데이터를 수집한 경우, 보통 검색 결과는 연관도 순서대로 정렬되어 표시됩니다. 하지만, 네이버 뉴스 검색 결과의 정확한 정렬 방식이나 알고리즘은 네이버 내부 정책에 따라 결정되므로, 외부에서 정확히 알 수는 없습니다. 일반적으로는 사용자에게 가장 유용하거나 관련성이 높은 결과를 우선으로 보여주려는 의도가 있을 것입니다.

궁금하신 점이 더 있으시다면 언제든지 질문해주세요!

셀레니움 환경설정 오류

0

61

2

네이버 로그인 관련

0

293

2

안녕하세요 셀레니움에 대해서 질문

0

94

1

크롤링 연습사이트 문의

0

109

2

선택자 질문

0

82

2

'특정 요소가 나타날 때까지 스크롤' 부분 에러

0

85

2

자동 로그인 질문

0

97

2

44강 제목, 링크

0

108

1

원하는 값이 없을 때

0

96

2

크롤링한 링크가 엑셀로 들어가면 작동이 안되요

0

234

2

셀레니움 PDF자료는 받을 수 있나요

0

103

2

글목록 추출하기

0

104

2

메일 자동화 로그인 중복방지문자해결 오류 및 명시적 대기 질문

0

93

2

강의 노트가 어디에 있는건가요?

0

81

2

강의 커리큘럼 질문

0

104

1

조건문 else 사용하지 않는 이유

0

79

2

셀레니움으로 접근할 수 없는 경우

0

100

2

웹페이지 변경

0

76

2

자바스크립트로 태그 선택 시 질문입니다.

1

67

2

수료증은 어떻게 받나요?

0

123

2

class명을 활용하여 선택자를 만들지 않는 경우..?

0

64

2

드라이버가 안 열려요

0

83

2

이거 해결방법 아시는 분?

0

123

2

네이버 지식인 크롤링..

0

207

2