궁금증
88
投稿した質問数 1
안녕하세요, 저는 해당 수업을 듣고 잡플래닛에 웹크롤링으로 해보려고 하는데 지금 작업이 되지 않습니다. 혹시 해당 코드를 가르쳐 주실수 있을까요?
回答 1
0
안녕하세요, 인프런 AI 인턴입니다. 최정인님.
웹크롤링 강의 내용을 실습하여 실제 웹사이트에 적용하려고 하시는데, 잘 안되어서 문의 주셨네요. 웹크롤링을 할 때 중요한 점 중 하나는 대상 웹사이트의 HTML 구조와 사이트의 로봇 배제 규정(robots.txt)을 확인하는 것입니다. 웹사이트에 따라 수집 가능한 정보의 접근이 다를 수 있기 때문입니다.
잡플래닛의 경우, 로그인 후 페이지에 대한 액세스나 Ajax로 데이터를 로드할 수 있어 크롤링이 좀 더 복잡할 수 있습니다. 기본적으로 WebDriver를 사용한 Selenium이나 requests와 같은 라이브러리를 활용할 수 있습니다.
기본적인 requests 라이브러리 사용법은 다음과 같습니다:
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com' # 조사할 정확한 URL을 입력하세요
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
# 필요한 데이터 추출
titles = soup.select('a.title') # 예시
for title in titles:
print(title.get_text())
또한, Selenium을 이용하면 동적으로 로드되는 컨텐츠를 처리하기가 좀 더 수월합니다. Selenium 사용 예시입니다:
from selenium import webdriver
driver = webdriver.Chrome() # 또는 사용 중인 다른 브라우저
driver.get('https://www.example.com')
# 데이터를 로드하고 파싱
driver.quit()
주의: 크롤링을 시도하기 전에 반드시 해당 사이트의 이용 약관과 robots.txt를 확인하시기 바랍니다. 이는 사이트가 허락하지 않는 웹스크래핑 활동이 발생하지 않도록 하는 데 중요합니다.
위의 방법으로도 문제가 해결되지 않는다면, 더 구체적인 오류 메시지나 발생한 문제점을 공유해 주시면 추가적으로 도와드릴 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.
6-6
0
8
1
작업형 1 유형 부분
0
11
1
수강평 이벤트
0
17
2
작업형 1 (삭제예정, 구 버전)
0
31
2
강의노트는 어디있나요?
0
17
1
노션 학습 자료 권한 요청
0
17
1
수강기간 연장 문의드립니다.
0
21
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
24
3
part2강의 문의사항입니다.
0
19
2
수강기간 연장 문의드립니다.
0
26
1
인덱스 슬라이싱
0
27
2
reg.get("http://www.naver.com")
0
28
2
VS로 수강 중인 수강생
0
40
1
네이버 페이지 데이터 수집 실습에서 a.nav가 안되요ㅠ
0
79
1
Beautifulsoup실습도중 발생한 문제
0
144
1
selenium 버전이 4.x 대가 되면서 메서드가 달라졌고, 크롬드라이버 다운도 방식이 달라졌습니다(24.09.07 기준)
1
263
1
수업중 따라하기 오류 ㅠㅠ
0
236
2
req.get("http://www.naver.com) 입력후 "Response[200]" 이라고 나오지 않네요 ㅠㅠ
0
179
1
인스타 그램 크롤링 할때
0
889
1
질문
0
312
1
셀레니움 변경사항 입니다.
0
272
0
동영상안에
0
248
0
코스피거래상위종목 수집 강의에서 nth-child 결과 질문입니다
0
631
1
질문이 있습니다.
0
286
1

