inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

12시간 안에 끝내는 파이썬을 활용한 크롤링

크롤링 개요/Request 사용법

궁금증

91

최정인

작성한 질문수 1

0

안녕하세요, 저는 해당 수업을 듣고 잡플래닛에 웹크롤링으로 해보려고 하는데 지금 작업이 되지 않습니다. 혹시 해당 코드를 가르쳐 주실수 있을까요?

python 웹-크롤링

답변 1

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 최정인님.

웹크롤링 강의 내용을 실습하여 실제 웹사이트에 적용하려고 하시는데, 잘 안되어서 문의 주셨네요. 웹크롤링을 할 때 중요한 점 중 하나는 대상 웹사이트의 HTML 구조와 사이트의 로봇 배제 규정(robots.txt)을 확인하는 것입니다. 웹사이트에 따라 수집 가능한 정보의 접근이 다를 수 있기 때문입니다.

잡플래닛의 경우, 로그인 후 페이지에 대한 액세스나 Ajax로 데이터를 로드할 수 있어 크롤링이 좀 더 복잡할 수 있습니다. 기본적으로 WebDriver를 사용한 Selenium이나 requests와 같은 라이브러리를 활용할 수 있습니다.

기본적인 requests 라이브러리 사용법은 다음과 같습니다:

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com'  # 조사할 정확한 URL을 입력하세요
headers = {'User-Agent': 'Mozilla/5.0'}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# 필요한 데이터 추출
titles = soup.select('a.title')  # 예시

for title in titles:
    print(title.get_text())

또한, Selenium을 이용하면 동적으로 로드되는 컨텐츠를 처리하기가 좀 더 수월합니다. Selenium 사용 예시입니다:

from selenium import webdriver

driver = webdriver.Chrome()  # 또는 사용 중인 다른 브라우저
driver.get('https://www.example.com')

# 데이터를 로드하고 파싱

driver.quit()

주의: 크롤링을 시도하기 전에 반드시 해당 사이트의 이용 약관과 robots.txt를 확인하시기 바랍니다. 이는 사이트가 허락하지 않는 웹스크래핑 활동이 발생하지 않도록 하는 데 중요합니다.

위의 방법으로도 문제가 해결되지 않는다면, 더 구체적인 오류 메시지나 발생한 문제점을 공유해 주시면 추가적으로 도와드릴 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

Sonauto V2 text to audio

0

11

1

Part2 자료에 대한 질문입니다.

0

8

1

시계열 데이터 날짜와 시간 format

0

15

1

자동화 프로그램 프로젝트

0

15

1

도커 컨테이너 생성 과정 오류 질문입니다.

0

30

2

평가지표 F1 스코어 질문드립니다.

0

16

2

강의 일정

0

26

2

replit에서 developer frameworks가 안보여요

0

17

2

Notion 권한 승인 요청 드립니다.

0

21

1

가상환경 설정시 문의

0

24

2

교육자료가 너무 오래되어서 지시한대로 진행하려 해도 안됩니다.

0

19

1

reg.get("http://www.naver.com")

0

38

2

VS로 수강 중인 수강생

0

43

1

네이버 페이지 데이터 수집 실습에서 a.nav가 안되요ㅠ

0

84

1

Beautifulsoup실습도중 발생한 문제

0

149

1

selenium 버전이 4.x 대가 되면서 메서드가 달라졌고, 크롬드라이버 다운도 방식이 달라졌습니다(24.09.07 기준)

1

270

1

수업중 따라하기 오류 ㅠㅠ

0

241

2

req.get("http://www.naver.com) 입력후 "Response[200]" 이라고 나오지 않네요 ㅠㅠ

0

181

1

인스타 그램 크롤링 할때

0

895

1

질문

0

316

1

셀레니움 변경사항 입니다.

0

277

0

동영상안에

0

251

0

코스피거래상위종목 수집 강의에서 nth-child 결과 질문입니다

0

637

1

질문이 있습니다.

0

291

1