inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

쉽게 처음하는 파이썬 고급 크롤링 [Scrapy, Selenium, Headless Chrome]

연습문제로 이해하는 Scrapy 활용

저장 인코딩 방식

257

가보자고

작성한 질문수 8

0

- 본 강의 영상 학습 관련 문의에 대해 답변을 드립니다. (어떤 챕터 몇분 몇초를 꼭 기재부탁드립니다)
- 이외의 문의등은 평생강의이므로 양해를 부탁드립니다
- 현업과 병행하는 관계로 주말/휴가 제외 최대한 3일내로 답변을 드리려 노력하고 있습니다
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
 
연습문제로 이해하는 Scrapy 활용
요약 : json -> csv 로 저장 방식을 바꾸고 나서 한글깨짐 현상이 생겼습니다.
 
이전 실습에서는 인코딩 형식을 바꾸지 않고 바로 csv로 저장했을때는 깨짐현상이 생기지 않았는데 이번에 json(utf-8)로 하고난후 csv로 저장했을때 한글깨짐 현상이 생깁니다.
다른 인코딩 방식(cp949, utf-16,,,)을 시도 해봤는데 계속 깨짐현상이 생깁니다.  
 

인코딩 bigdata 웹-크롤링 selenium scrapy

답변 2

0

KIYAN

저는 csv 형식으로 저장했을때 한글이 깨져서 구글링 검색결과 

FEED_EXPORT_ENCODING="utf-8-sig"

로 수정하면  csv 파일이 안깨지더라구요 형식에 따라 조금씩 다른듯 합니다

0

kshssi

감사합니다. 이 방법으로 해결했습니다.

 

0

잔재미코딩 DaveLee

안녕하세요.

말씀하신 부분이 어떤 코드를 실행할 때를 말씀하시는 것인지가 안나와서요. json 으로 저장하는 것과 csv 로 저장하는 것이 전혀 별개 명령이라서, json 으로 한 다음에 csv 로 하면 한글이 깨진다는 부분은 논리적으로 이해가 되지 않아서요. scrapy 를 실행할 때, json 옵션을 붙이면 크롤링 실행 후 , json 으로 저장하는 것이고, 또다시 또다른 명령으로 scrapy 를 실행할 때 csv 옵션을 붙이면, 다시 크롤링 실행 후, csv 로 저장하는 것이라서, 순서에 따라, 한글 인코딩이 깨진다는 것은 논리적으로 좀 이상해보여요.

혹시 크롤링하는 사이트 자체가 개인별로 테스트하는 또다른 사이트일 경우, 당연히 해당 사이트 인코딩에 따라, 이슈가 생길 수는 있을 것 같고, 그것은 scrapy 와 본 강의와는 별개의 이슈입니다. 혹시, 제가 이해한 바가 다르다면, 다시 한번 새로운 글로 설명해주셔도 좋습니다.

[REST API] data의 교환방식 질문

1

666

1

headless chrome 오류 문의

0

1488

1

Selenium 처리 속도 관련 문의드립니다.

0

1956

1

동적 웹사이트에서 element가 선택되지 않는 문제에 관해 질문드립니다

0

687

1

webdriver manager

0

441

1

__init__() got an unexpected keyword argument 'service' 에러 질문드립니다.

1

11713

1

Jupiter NoteBook 파일과 PDF 파일은 어디서 다운로드 받을 수 있나요?

0

444

1

scrapy option질문

1

244

1

response.css 질문드립니다.

0

373

1

scrapy 크롤링 수행시 ffi.callback() 에러가 발생합니다

0

397

1

selenium으로 여러페이지 수집시 질문

0

381

1

연습6 모범 코드: 로그인 시나리오 해보기

0

273

1

셀레니움 문법 업그레이드 , find_element_by_tag_name 오류

3

2832

1

셀레니움 버전 변경으로 인한 코드 변경

0

1285

1

headless error

0

441

1

질문있습니다!

0

464

1

안녕하세요 선생님! 질문있습니다.

0

233

1

selenium&scrapy문의

0

280

1

아래분(phantele47)과 동일한 문제가 발생해서 문의드립니다.

0

910

6

ip 차단을 피하려면 어떻게 해야 하나요?

0

3371

2

start_urls = ['']가 제공해주신 것과 다르게 작동합니다.

1

288

2

json, data = json.loads(response.body_as_unicode()) 부분에 문제가 있는 것 같습니다.

0

604

3

웹크롤링이 상대방 서버에 부담이 될 때는 어떻게 하나요~?

0

685

1

scrapy 윈도우버전의 설명은 따로 없나요??

0

332

1