좋은사람님 답변 부탁드립니다.

Question

from bs4 import BeautifulSoup

import urllib.request as req

import urllib.parse as rep

import sys

import io

import os

sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding = 'utf-8')

sys.stderr = io.TextIOWrapper(sys.stderr.detach(), encoding = 'utf-8')

base = "https://search.naver.com/search.naver?where=image&query="

quote = rep.quote_plus("사자")

url = base + quote

res = req.urlopen(url)

savePath ="C:imagedown\"

try:

if not(os.path.isdir(savePath)):

os.makedirs(os.path.join(savePath))

except OSError as e:

if e.errno != errno.EEXIST:

print("폴더 만들기 실패!!!!!")

raise

soup = BeautifulSoup(res, "html.parser")

li_list = soup.select("div.img_area._item > a.thumb._thumb > img")

for i, div in enumerate(li_list,1):

print("div =", div['data-source'])

fullfilename = os.path.join(savePath, savePath+str(i)+'.jpg')

print(fullfilename)

req.urlretrieve(div['data-source'],fullfilename)

print(i)

실행이 안됩니다. 4일째 구글링하면서 방법을 찾고 있지만 더 이상 찾을수가 없어 질문드립니다.

res = req.urlopen(url)

이 부분에서 에러가 납니다.

urlopen이 안되는 것 같은데.

이미 컴퓨터 포맷도 해보고 다시 재설치까지 해봤습니다.

더이상 방법을 알지 못해 글남깁니다.

아래는 오류 코드입니다.

Traceback (most recent call last):

File "C:section22-8-1.py", line 16, in

res = req.urlopen(url)

File "C:UsersM.KingAnaconda3envssection2liburllibrequest.py", line 163, in urlopen

return opener.open(url, data, timeout)

File "C:UsersM.KingAnaconda3envssection2liburllibrequest.py", line 472, in open

response = meth(req, response)

File "C:UsersM.KingAnaconda3envssection2liburllibrequest.py", line 582, in http_response

'http', request, response, code, msg, hdrs)

File "C:UsersM.KingAnaconda3envssection2liburllibrequest.py", line 510, in error

return self._call_chain(args)

File "C:UsersM.KingAnaconda3envssection2liburllibrequest.py", line 444, in _call_chain

result = func(args)

File "C:UsersM.KingAnaconda3envssection2liburllibrequest.py", line 590, in http_error_default

raise HTTPError(req.full_url, code, msg, hdrs, fp)

urllib.error.HTTPError: HTTP Error 403: Forbidden

[Finished in 0.474s]

Answer

정말 감사드립니다 ^^

Answer

안녕하세요. 김민기님고생 많이 하셨습니다. 결론부터 말씀드리면, 네이버에서 현재 막아놔서 그렇습니다.소스 코드에 sys.stdout = io.TextIOWrapper(sys.stdout.detach(), encoding = ‘utf-8’)sys.stderr = io.TextIOWrapper(sys.stderr.detach(), encoding = ‘utf-8’)아래 부분에 아래 코드를 추가하시면 정상적으로 실행됩니다.opener = req.build_opener()opener.addheaders = [('User-agent', 'Mozilla/5.0')]req.install_opener(opener)설명해드리면, 헤더 정보가 없는 크롤링은 안되도록 네이버가 현재 막아놨습니다. 그래서 위에 코드에 헤더(유저 에이전트) 정보를 심어서 보내면 정상적으로 작동합니다.포멧까지 하시면 고생하셨습니다.질문있으시면 쪽지로 주시면 답변이 조금 빠릅니다.해당 부분은 강의 내용에 추가로 설명해 놓겠습니다.지금 강의를 듣는 모든 학생들이 전부 안되는 상황이니 빠르게 조치하겠습니다.좋은 발견해주셔서 감사합니다.

김표만

좋은사람님 답변 부탁드립니다.

이 글과 비슷한 Q&A

bfs 시간복잡도 관련 질문입니다!

현업에서 detection 시 데이터셋의 수가 어느정도 되야하나요?

Redis 연결중 import

3-4 수치형 - 민맥스 스케일링