inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Thu thập dữ liệu bằng Python hoàn thành sau 12 giờ

Tổng quan về thu thập thông tin/Yêu cầu sử dụng

궁금증

101

jeongin08138951

1 câu hỏi đã được viết

0

안녕하세요, 저는 해당 수업을 듣고 잡플래닛에 웹크롤링으로 해보려고 하는데 지금 작업이 되지 않습니다. 혹시 해당 코드를 가르쳐 주실수 있을까요?

python 웹-크롤링

Câu trả lời 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 최정인님.

웹크롤링 강의 내용을 실습하여 실제 웹사이트에 적용하려고 하시는데, 잘 안되어서 문의 주셨네요. 웹크롤링을 할 때 중요한 점 중 하나는 대상 웹사이트의 HTML 구조와 사이트의 로봇 배제 규정(robots.txt)을 확인하는 것입니다. 웹사이트에 따라 수집 가능한 정보의 접근이 다를 수 있기 때문입니다.

잡플래닛의 경우, 로그인 후 페이지에 대한 액세스나 Ajax로 데이터를 로드할 수 있어 크롤링이 좀 더 복잡할 수 있습니다. 기본적으로 WebDriver를 사용한 Selenium이나 requests와 같은 라이브러리를 활용할 수 있습니다.

기본적인 requests 라이브러리 사용법은 다음과 같습니다:

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com'  # 조사할 정확한 URL을 입력하세요
headers = {'User-Agent': 'Mozilla/5.0'}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# 필요한 데이터 추출
titles = soup.select('a.title')  # 예시

for title in titles:
    print(title.get_text())

또한, Selenium을 이용하면 동적으로 로드되는 컨텐츠를 처리하기가 좀 더 수월합니다. Selenium 사용 예시입니다:

from selenium import webdriver

driver = webdriver.Chrome()  # 또는 사용 중인 다른 브라우저
driver.get('https://www.example.com')

# 데이터를 로드하고 파싱

driver.quit()

주의: 크롤링을 시도하기 전에 반드시 해당 사이트의 이용 약관과 robots.txt를 확인하시기 바랍니다. 이는 사이트가 허락하지 않는 웹스크래핑 활동이 발생하지 않도록 하는 데 중요합니다.

위의 방법으로도 문제가 해결되지 않는다면, 더 구체적인 오류 메시지나 발생한 문제점을 공유해 주시면 추가적으로 도와드릴 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

기출 11회 작업형 2_전체 데이터 학습 여부

0

3

1

RateLimitError

0

7

2

예측값 결과 소수점 차이

0

15

2

여태까지 발견한 이슈들 공유드립니다.

1

14

1

기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?

0

13

0

전처리 train() test([ ])

0

12

2

작업형 1 배경지식 질문

0

16

2

옳게 풀은건지 질문드립니다!

0

12

1

roc_auc_score

0

22

2

재귀함수 연산법

0

11

2

교육자료가 너무 오래되어서 지시한대로 진행하려 해도 안됩니다.

0

26

1

reg.get("http://www.naver.com")

0

51

2

VS로 수강 중인 수강생

0

54

1

네이버 페이지 데이터 수집 실습에서 a.nav가 안되요ㅠ

0

89

1

Beautifulsoup실습도중 발생한 문제

0

156

1

selenium 버전이 4.x 대가 되면서 메서드가 달라졌고, 크롬드라이버 다운도 방식이 달라졌습니다(24.09.07 기준)

1

284

1

수업중 따라하기 오류 ㅠㅠ

0

252

2

req.get("http://www.naver.com) 입력후 "Response[200]" 이라고 나오지 않네요 ㅠㅠ

0

190

1

인스타 그램 크롤링 할때

0

922

1

질문

0

320

1

셀레니움 변경사항 입니다.

0

282

0

동영상안에

0

256

0

코스피거래상위종목 수집 강의에서 nth-child 결과 질문입니다

0

648

1

질문이 있습니다.

0

297

1