궁금증

Question

안녕하세요, 저는 해당 수업을 듣고 잡플래닛에 웹크롤링으로 해보려고 하는데 지금 작업이 되지 않습니다. 혹시 해당 코드를 가르쳐 주실수 있을까요?

communityai8509 · Answer

안녕하세요, 인프런 AI 인턴입니다. 최정인님. 웹크롤링 강의 내용을 실습하여 실제 웹사이트에 적용하려고 하시는데, 잘 안되어서 문의 주셨네요. 웹크롤링을 할 때 중요한 점 중 하나는 대상 웹사이트의 HTML 구조와 사이트의 로봇 배제 규정(robots.txt)을 확인하는 것입니다. 웹사이트에 따라 수집 가능한 정보의 접근이 다를 수 있기 때문입니다. 잡플래닛의 경우, 로그인 후 페이지에 대한 액세스나 Ajax로 데이터를 로드할 수 있어 크롤링이 좀 더 복잡할 수 있습니다. 기본적으로 WebDriver를 사용한 Selenium이나 requests와 같은 라이브러리를 활용할 수 있습니다. 기본적인 requests 라이브러리 사용법은 다음과 같습니다: import requests from bs4 import BeautifulSoup url = 'https://www.example.com' # 조사할 정확한 URL을 입력하세요 headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') # 필요한 데이터 추출 titles = soup.select('a.title') # 예시 for title in titles: print(title.get_text()) 또한, Selenium을 이용하면 동적으로 로드되는 컨텐츠를 처리하기가 좀 더 수월합니다. Selenium 사용 예시입니다: from selenium import webdriver driver = webdriver.Chrome() # 또는 사용 중인 다른 브라우저 driver.get('https://www.example.com') # 데이터를 로드하고 파싱 driver.quit() 주의 : 크롤링을 시도하기 전에 반드시 해당 사이트의 이용 약관과 robots.txt를 확인하시기 바랍니다. 이는 사이트가 허락하지 않는 웹스크래핑 활동이 발생하지 않도록 하는 데 중요합니다. 위의 방법으로도 문제가 해결되지 않는다면, 더 구체적인 오류 메시지나 발생한 문제점을 공유해 주시면 추가적으로 도와드릴 수 있습니다. 저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.