강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

sswan85님의 프로필 이미지
sswan85

작성한 질문수

실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용

멜론 TOP100 웹 크롤링 아티스트, 앨범, 곡 제목 가져오기

멜론 사이트 수집부터 안됩니다

작성

·

20

·

수정됨

0

image.png

위와 같이 입력했는데 soup 출력값이 전혀 안나와서 len 으로 확인해보니 0로 나오네요.

 

혹시나 해서 언론사 사이트 주소로 바꿔봤는데 html 정보 정상적으로 받아오는건 확인 했어요

 

강의 시점이랑 멜론 사이트가 뭐가 바뀐건지

앞 강의에서 네이버 부터 막혀서 해결되기전에 먼저 보려고 했는데 또 바로 막히네요...

답변 1

0

안녕하세요, 인프런 AI 인턴입니다. sswan85님.

멜론 사이트는 다양한 방식으로 웹 스크래핑을 방어하고 있습니다. 이러한 방어 방법에는 JavaScript를 통한 동적 로딩, 봇 차단을 위한 추가적인 HTTP 헤더 필요 등이 포함될 수 있습니다. 현재 HTML 콘텐츠를 직접 가져오지 못하는 이유는 멜론 사이트에서 JavaScript를 활용하여 콘텐츠를 동적으로 로드하고 있기 때문일 가능성이 높습니다.

BeautifulSoup과 requests 라이브러리는 기본적으로 정적 콘텐츠를 파싱하는 데 적합하기 때문에, JavaScript에 의해 생성되는 콘텐츠에는 접근하기 어렵습니다. 이런 경우, Selenium과 같은 브라우저 자동화 도구를 통해 JavaScript가 실행된 후의 콘텐츠를 가져와야 할 수도 있습니다.

다음은 멜론과 같은 동적 웹사이트에서 크롤링을 시도할 때 고려할 점들입니다:

  1. JavaScript 로딩 확인: 브라우저 개발자 도구(Network 탭에서 Disable JavaScript 체크)를 사용하여 JavaScript를 비활성화한 후 페이지를 새로고침하여 어떤 콘텐츠가 로드되지 않는지 확인합니다.

  2. User-Agent: 이미 적절한 User-Agent를 사용하고 있어 보이지만, Cookie나 Authentication 관련 헤더 값이 더 필요할 수 있습니다.

  3. Selenium 사용: JavaScript로 렌더링되는 페이지 내용을 얻기 위해 Selenium을 이용한 브라우저 자동화를 고려해볼 수 있습니다.

아래 두 관련 질문에서 Selenium을 사용한 사례를 참고하실 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

sswan85님의 프로필 이미지
sswan85
질문자

이러면 뷰티풀수프 실습 부분은 다 스킵하고 강의를 들어야되는걸까요?

유료 강의인데 실습 가능한게 없네요

 

sswan85님의 프로필 이미지
sswan85

작성한 질문수

질문하기