• 카테고리

    질문 & 답변
  • 세부 분야

    프로그래밍 언어

  • 해결 여부

    미해결

크롤링 하는데 웹주소가 변동이없는건 어떻게해야하나요?

20.11.23 19:10 작성 조회수 1.08k

1

안녕하세요 강사님

크롤링을 할때마다 종종 강의를 들으러 옵니다

수강시작한지는 오래됐지만 염치불구하고 질문드립니다

제가 이번에 게시판 이용자의 정치성향을 분석하려 데이터를 수집하는데

현정부에 긍정인 데이터를 수집하기위해

http://cafe.daum.net/moonfan

이 사이트에서 문재인을 검색하여 나오는 글 제목을 모두 크롤링하려했으나

주소의 변동이 아예없어서 url을 가져올수가 없습니다 ㅠ

네트워크탭에서 이것저것 뒤져봐도 파일이 너무많아서 어딜 봐야할지도 모르겠고,

text파일 보려고하면 

이렇게 뜹니다,,,  권한이 없는것인지

이런경우에 어떻게 해야할까요..?

지금은 selenium으로 시도중인데

검색창에 접근하려고

driver.find_element_by_name('search_left_query')

이렇게 하여도 

element가 존재하지 않는다고 합니다 ㅠ


더 괜찮은 방법이 있을지 여쭤봅니다!

답변 1

답변을 작성해보세요.

0

네이버 카페뿐 아니라 주소가 바뀌지 않는 웹페이지는 보통 프레임 구조로 동작하던가 아니면 ajax로만 동작한다고 생각하시면 됩니다. 

말씀하신 카페 메인으로 접속을 해보면 위의 이미지에서 처럼 iframe 을 통해 접속이 되는걸 볼 수 있습니다. 이 iframe 의 src 속성이 실제 접속하는 주소가 되므로 이 주소를 직접 접속해서 분석을 해보시길 바랍니다. 웹크롤링을 하기 위해선 어떻게 웹페이지가 만들어지고 웹개발이 이뤄지는지.. 웹로직을 어느정도 이해하시면 많은 도움이 됩니다.