chunk size 관련 질문

Question

안녕하세요 선생님, read_csv를 할 때 chunksize관련 질문이 있어 글을 올립니다.

반복문을 사용하여 데이터를 로드 받은 것을 보니 각각 따로 데이터가 나뉘어져 있더라고요.

그러면 나중에 다시 이 데이터들을 다시 합쳐야 되는 건가요? 아니면 print가 아닌 display로 나타내어서 따로따로 보이는 건가요?

Answer

@최원빈님 안녕하세요?답변 드리겠습니다.chunk_size 옵션으로 데이터를 나누어서 처리할 경우메모리 공간에 나눈 만큼만 로드합니다.애초에 chunk_size로 나누어서 로드하는 목적 자체가한 번에 데이터를 메모리에 로드해서 처리하기 힘든 데이터 (즉, 사이즈가 10G혹은 20G가 넘어가서 PC의 RAM을 초과하는 경우)를 핸들링 하기 위한 목적이므로,가용 가능한 만큼만 잘라서 로드해 주는 기능입니다.따라서 데이터를 chunk (하나의 부분 덩어리) 별로 처리 및 조회해 주셔야 합니다 (예제 코드처럼 반복문 활용)그렇다면, 질문 주신 내용인'그러면 나중에 다시 이 데이터들을 다시 합쳐야 되는 건가요? 아니면 print가 아닌 display로 나타내어서 따로따로 보이는 건가요?'에 대한 답변은파일형태로 저장을 해주시려면 나누어서 따로 저장할 수도 있고, 아니면 하나의 파일에 저장하고 싶다면 바로 저장해주시면 됩니다.예제 코드에서는 반복문 안에서 출력 목적으로 display를 했기 때문에 따로따로 보이는 것이 맞습니다.감사합니다.

최원빈

chunk size 관련 질문

이 글과 비슷한 Q&A

원핫 인코딩을 실행하면 0과 1로 변환되지 않습니다.

2. 상가 기술통계 아웃풋 자료에서 오류가 납니다

if 문 작성 후 : 엔터 시 들여쓰기 질문

logit glm 차이