pandas로 csv 데이터 읽을 때

Question

안녕하세요 선생님.

산탄데르 캐글 예측 데이터를 불러올때, pd.read_csv()안에 파일위치와 encoding='latin-1'이라고 하셨는데, 혹시 encoding이 의미하는게 무엇인지 알 수 있을까요?

감사합니다.

Answer

안녕하십니까,

파일내에 문자열이 어떻게 encoding되어 있는가를 나타냅니다. 사실 text 파일은 우리가 메모장으로 열어보면 한글로 잘 나오지만, text file 자체는 byte 로 되어 있습니다. 이 byte가 문자열을 나타내는데, 특정 문자는 1byte, 어떤 문자는 2byte, 어떤 문자는 3byte등으로 encoding되어 있습니다.

대표적으로 알파벳 계열, 숫자값등의 문자열은 1 byte 만으로 알파벳 1개를 나타내는 형태로 encoding 가능합니다. 한글은 보통 2byte, 그런데 이렇게 문자열별로 다르게 encoding하는걸 개선하기 위해서 3byte로 encoding하는 unicode 방식이 있습니다. 보통 pandas의 read_csv()는 text 파일이 unicode 형식으로 encoding 되어 있다고 가정하고 로딩합니다.

그런데 text 파일의 encoding과 read_csv()의 encoding이 맞지 않을 경우 오류가 발생할 수 있습니다. 이런 경우는 보통 한글일 때 발생하는데, 산탄데르 데이터의 경우는 전부 숫자값이어서 latin-1(알파벳 계열)로 encoding을 적용하였습니다.

감사합니다.

감성훈

pandas로 csv 데이터 읽을 때

이 글과 비슷한 Q&A

fraud일때만 이상치를 제거하는 이유가 어느부분에 나오는지 궁금합니다

jupyer notebook 실행하고 new를 클릭하였으나 pyhon3이 안보입니다

현재 커서가 속한 페이지를 얻을 수 있는 방법

작업형 2 csv파일 제출