인프런 커뮤니티 질문&답변
멜론 사이트 수집부터 안됩니다
작성
·
20
·
수정됨
0

위와 같이 입력했는데 soup 출력값이 전혀 안나와서 len 으로 확인해보니 0로 나오네요.
혹시나 해서 언론사 사이트 주소로 바꿔봤는데 html 정보 정상적으로 받아오는건 확인 했어요
강의 시점이랑 멜론 사이트가 뭐가 바뀐건지
앞 강의에서 네이버 부터 막혀서 해결되기전에 먼저 보려고 했는데 또 바로 막히네요...
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. sswan85님.
멜론 사이트는 다양한 방식으로 웹 스크래핑을 방어하고 있습니다. 이러한 방어 방법에는 JavaScript를 통한 동적 로딩, 봇 차단을 위한 추가적인 HTTP 헤더 필요 등이 포함될 수 있습니다. 현재 HTML 콘텐츠를 직접 가져오지 못하는 이유는 멜론 사이트에서 JavaScript를 활용하여 콘텐츠를 동적으로 로드하고 있기 때문일 가능성이 높습니다.
BeautifulSoup과 requests 라이브러리는 기본적으로 정적 콘텐츠를 파싱하는 데 적합하기 때문에, JavaScript에 의해 생성되는 콘텐츠에는 접근하기 어렵습니다. 이런 경우, Selenium과 같은 브라우저 자동화 도구를 통해 JavaScript가 실행된 후의 콘텐츠를 가져와야 할 수도 있습니다.
다음은 멜론과 같은 동적 웹사이트에서 크롤링을 시도할 때 고려할 점들입니다:
JavaScript 로딩 확인: 브라우저 개발자 도구(Network 탭에서 Disable JavaScript 체크)를 사용하여 JavaScript를 비활성화한 후 페이지를 새로고침하여 어떤 콘텐츠가 로드되지 않는지 확인합니다.
User-Agent: 이미 적절한 User-Agent를 사용하고 있어 보이지만, Cookie나 Authentication 관련 헤더 값이 더 필요할 수 있습니다.
Selenium 사용: JavaScript로 렌더링되는 페이지 내용을 얻기 위해 Selenium을 이용한 브라우저 자동화를 고려해볼 수 있습니다.
아래 두 관련 질문에서 Selenium을 사용한 사례를 참고하실 수 있습니다.
- “오류가 계속 뜨네요” - Selenium과 BeautifulSoup을 조합해 문제를 해결한 사례입니다.
- “네이버 쇼핑 크롤링 1” - BeautifulSoup을 활용한 다양한 데이터 추출 방법을 다루고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.






이러면 뷰티풀수프 실습 부분은 다 스킵하고 강의를 들어야되는걸까요?
유료 강의인데 실습 가능한게 없네요