크롤링시 한글 부분이 이상한 문자로 나옵니다.
r
답변 1
0
안녕하세요!
한글이 깨지는 것은 인코딩 문제인데요
서버에서 돌려준 응답을
utf-8이나 euc-kr 등으로 다시 인코딩하는 형태로 개발해보시면 좋을 거 같습니다.
그리고 전체 코드를 첨부해주시면 저도 테스트 해볼게요 ^^
0
import requests
from bs4 import BeautifulSoup
import pandas as pd
data = []
url = "https://jungjinmall.co.kr/shop/index.php?category=C1625644964"
url1 ="https://www.seahtool.com/goods/goods_list.php?cateCd=020001"
response = requests.get(f"{url}")
html = response.text
soup = BeautifulSoup(html, 'html.parser')
items = soup.select(".output-skin01.p1")
for i in items:
link = i.select_one('.pv1 > a').attrs['href']
response = requests.get(f"https://jungjinmall.co.kr{link}")
response.encoding = 'utf-8'
html = response.text
soup = BeautifulSoup(html, 'html.parser')
name = soup.select_one('.f5.pv3').text.strip()
price = soup.select_one('.strong.money').text
image = soup.select_one('.margintb5.border-1-s-ccc').attrs['src']
image1 =f"https://jungjinmall.co.kr{image}"
print(name ,price, image1)이런식으로 response.encoding을 utf-8 로 맞춰 주면 정상적으로 한글이 깨지지 않고 표시가 됩니다 :)
1
아이구야 되네요 !!!! 뭐라 감사의 말씀을 드려야 될지 넘 감사합니다. 카페도 가입했고 동영상 강의도 제가 이해하는데 넘 꼭 맞는 것같아 차례로 듣고 있어요 다시 한 번 감사의 말씀을 드립니다.
0
도움이 되셨다니 다행이네요 ㅎㅎ
카페에 가입하셨다니
질문게시판이나 코딩인증게시판 등을 활용해서
추가적인 도움이나 동기부여를 얻어 보시고
간단한 프로그램이라도 만드시면
좋은 소식 자랑게시판에 편하게 올려보세요~~!
인정받는 느낌을 통해 배움을 지속하는데 큰 도움이 될겁니다 ㅎㅎ
셀레니움 환경설정 오류
0
52
2
네이버 로그인 관련
0
282
2
안녕하세요 셀레니움에 대해서 질문
0
89
1
크롤링 연습사이트 문의
0
102
2
선택자 질문
0
74
2
'특정 요소가 나타날 때까지 스크롤' 부분 에러
0
78
2
자동 로그인 질문
0
90
2
44강 제목, 링크
0
107
1
원하는 값이 없을 때
0
91
2
크롤링한 링크가 엑셀로 들어가면 작동이 안되요
0
230
2
셀레니움 PDF자료는 받을 수 있나요
0
100
2
글목록 추출하기
0
100
2
메일 자동화 로그인 중복방지문자해결 오류 및 명시적 대기 질문
0
91
2
강의 노트가 어디에 있는건가요?
0
80
2
강의 커리큘럼 질문
0
102
1
조건문 else 사용하지 않는 이유
0
77
2
셀레니움으로 접근할 수 없는 경우
0
98
2
웹페이지 변경
0
75
2
자바스크립트로 태그 선택 시 질문입니다.
1
65
2
수료증은 어떻게 받나요?
0
122
2
class명을 활용하여 선택자를 만들지 않는 경우..?
0
61
2
드라이버가 안 열려요
0
79
2
이거 해결방법 아시는 분?
0
121
2
네이버 지식인 크롤링..
0
202
2





