마지막 페이지 관련
318
작성한 질문수 2
안녕하세요~! 몇가지 궁금증이 있어 문의 드립니다!
네이버 뉴스 기사가 페이지 넘버링이 아닌,
스크롤식으로 변경된 것으로 확인됩니다.
이러한 경우에는 마지막 기를 어떻게 확인할 수 있을까요? (
굳이 마지막 페이지를 확인할 이유가 없을 것 같긴 하지만ㅎㅎ 그래도 궁금하네요 )
2.
f'https://search.naver.com/search.naver?ssc=tab.news.all&where=news&sm=tab_jum&query={keyword}&start={i}'
이전 강의에서 확인하였던, &start={i}을 추가하여 네이버 뉴스 기사 결과를 수집해본 결과, 계속해서 수집이 되긴 했습니다.
제 생각에는 연관도가 높은순 → 낮은순으로 출력되는 것 같은데 맞는지도 궁금하네용ㅎㅎ
답변 2
0
저도 얼마전에 네이버 뉴스 페이지가 완전 바뀐 것을 보고
실전편을 리뉴얼 해야 겠다는 생각을 했습니다 🙂
수강생분이 똑똑하셔서 제대로 캐치하신 것 같아요
질문하신 내용 전부 맞습니다.
네이버 뉴스 기사가 페이지 넘버링이 아닌,
스크롤식으로 변경된 것으로 확인됩니다.
이러한 경우에는 마지막 기를 어떻게 확인할 수 있을까요? (
굳이 마지막 페이지를 확인할 이유가 없을 것 같긴 하지만ㅎㅎ 그래도 궁금하네요 )
-> 무한 스크롤 처리 방식으로 구현 가능합니다
아래 유튜브 영상 5:55 을 참고해 보세요!
검색량이 많은 검색어의 경우 끝도없이 내려가네요.
검색어가 적은 걸로 마지막페이지를 테스트해보면 좋을 거 같습니다.
ex) 미옹이
이전 강의에서 확인하였던, &start={i}을 추가하여 네이버 뉴스 기사 결과를 수집해본 결과, 계속해서 수집이 되긴 했습니다.
제 생각에는 연관도가 높은순 → 낮은순으로 출력되는 것 같은데 맞는지도 궁금하네용ㅎㅎ
-> 신기하게도 네이버에서 기존 방식을 그대로 나뒀습니다 ㅋㅋ
기본 정렬방식이 관련도순으로 되어 있습니다. 관련도에 대한 정확한 알고리즘은 아무도 모릅니다.
그래서 순서는 항상 바뀔 수 있어요.
0
안녕하세요, 인프런 AI 인턴입니다.
창희님, 웹 크롤링과 관련하여 질문해주셨군요.
네이버 뉴스 기사가 스크롤 형식으로 변경된 경우, 일반적으로 마지막 페이지를 확인하는 것이 어려워집니다. 대신, API 응답이나 페이지 스크립트 등에서 종료 조건을 제공할 수 있습니다. 또는 특정 조건(예: 더 이상 데이터가 없을 때 나타나는 요소)이 출현할 때까지 페이지를 스크롤하며 데이터를 수집하는 방법이 사용될 수 있습니다.
&start={i}파라미터를 사용하여 페이지를 이동하며 데이터를 수집한 경우, 보통 검색 결과는 연관도 순서대로 정렬되어 표시됩니다. 하지만, 네이버 뉴스 검색 결과의 정확한 정렬 방식이나 알고리즘은 네이버 내부 정책에 따라 결정되므로, 외부에서 정확히 알 수는 없습니다. 일반적으로는 사용자에게 가장 유용하거나 관련성이 높은 결과를 우선으로 보여주려는 의도가 있을 것입니다.
궁금하신 점이 더 있으시다면 언제든지 질문해주세요!
셀레니움 환경설정 오류
0
61
2
네이버 로그인 관련
0
293
2
안녕하세요 셀레니움에 대해서 질문
0
94
1
크롤링 연습사이트 문의
0
109
2
선택자 질문
0
82
2
'특정 요소가 나타날 때까지 스크롤' 부분 에러
0
85
2
자동 로그인 질문
0
97
2
44강 제목, 링크
0
108
1
원하는 값이 없을 때
0
96
2
크롤링한 링크가 엑셀로 들어가면 작동이 안되요
0
234
2
셀레니움 PDF자료는 받을 수 있나요
0
103
2
글목록 추출하기
0
104
2
메일 자동화 로그인 중복방지문자해결 오류 및 명시적 대기 질문
0
93
2
강의 노트가 어디에 있는건가요?
0
81
2
강의 커리큘럼 질문
0
104
1
조건문 else 사용하지 않는 이유
0
79
2
셀레니움으로 접근할 수 없는 경우
0
100
2
웹페이지 변경
0
76
2
자바스크립트로 태그 선택 시 질문입니다.
1
67
2
수료증은 어떻게 받나요?
0
123
2
class명을 활용하여 선택자를 만들지 않는 경우..?
0
64
2
드라이버가 안 열려요
0
83
2
이거 해결방법 아시는 분?
0
123
2
네이버 지식인 크롤링..
0
207
2





