inflearn logo
강의

講義

知識共有

12時間で終わるPythonを活用したクロール

クロールの概要/要求の使い方

궁금증

88

jeongin08138951

投稿した質問数 1

0

안녕하세요, 저는 해당 수업을 듣고 잡플래닛에 웹크롤링으로 해보려고 하는데 지금 작업이 되지 않습니다. 혹시 해당 코드를 가르쳐 주실수 있을까요?

python 웹-크롤링

回答 1

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 최정인님.

웹크롤링 강의 내용을 실습하여 실제 웹사이트에 적용하려고 하시는데, 잘 안되어서 문의 주셨네요. 웹크롤링을 할 때 중요한 점 중 하나는 대상 웹사이트의 HTML 구조와 사이트의 로봇 배제 규정(robots.txt)을 확인하는 것입니다. 웹사이트에 따라 수집 가능한 정보의 접근이 다를 수 있기 때문입니다.

잡플래닛의 경우, 로그인 후 페이지에 대한 액세스나 Ajax로 데이터를 로드할 수 있어 크롤링이 좀 더 복잡할 수 있습니다. 기본적으로 WebDriver를 사용한 Selenium이나 requests와 같은 라이브러리를 활용할 수 있습니다.

기본적인 requests 라이브러리 사용법은 다음과 같습니다:

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com'  # 조사할 정확한 URL을 입력하세요
headers = {'User-Agent': 'Mozilla/5.0'}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# 필요한 데이터 추출
titles = soup.select('a.title')  # 예시

for title in titles:
    print(title.get_text())

또한, Selenium을 이용하면 동적으로 로드되는 컨텐츠를 처리하기가 좀 더 수월합니다. Selenium 사용 예시입니다:

from selenium import webdriver

driver = webdriver.Chrome()  # 또는 사용 중인 다른 브라우저
driver.get('https://www.example.com')

# 데이터를 로드하고 파싱

driver.quit()

주의: 크롤링을 시도하기 전에 반드시 해당 사이트의 이용 약관과 robots.txt를 확인하시기 바랍니다. 이는 사이트가 허락하지 않는 웹스크래핑 활동이 발생하지 않도록 하는 데 중요합니다.

위의 방법으로도 문제가 해결되지 않는다면, 더 구체적인 오류 메시지나 발생한 문제점을 공유해 주시면 추가적으로 도와드릴 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

6-6

0

8

1

작업형 1 유형 부분

0

11

1

수강평 이벤트

0

17

2

작업형 1 (삭제예정, 구 버전)

0

31

2

강의노트는 어디있나요?

0

17

1

노션 학습 자료 권한 요청

0

17

1

수강기간 연장 문의드립니다.

0

21

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

24

3

part2강의 문의사항입니다.

0

19

2

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

27

2

reg.get("http://www.naver.com")

0

28

2

VS로 수강 중인 수강생

0

40

1

네이버 페이지 데이터 수집 실습에서 a.nav가 안되요ㅠ

0

79

1

Beautifulsoup실습도중 발생한 문제

0

144

1

selenium 버전이 4.x 대가 되면서 메서드가 달라졌고, 크롬드라이버 다운도 방식이 달라졌습니다(24.09.07 기준)

1

263

1

수업중 따라하기 오류 ㅠㅠ

0

236

2

req.get("http://www.naver.com) 입력후 "Response[200]" 이라고 나오지 않네요 ㅠㅠ

0

179

1

인스타 그램 크롤링 할때

0

889

1

질문

0

312

1

셀레니움 변경사항 입니다.

0

272

0

동영상안에

0

248

0

코스피거래상위종목 수집 강의에서 nth-child 결과 질문입니다

0

631

1

질문이 있습니다.

0

286

1