inflearn logo
강의

講義

知識共有

[テディノート] 一発で終わらせるパンダスPandas(電子書籍付き)

ファイル入出力練習問題解説

chunk size 관련 질문

326

owenchoi96

投稿した質問数 45

0

안녕하세요 선생님, read_csv를 할 때 chunksize관련 질문이 있어 글을 올립니다.

반복문을 사용하여 데이터를 로드 받은 것을 보니 각각 따로 데이터가 나뉘어져 있더라고요.

그러면 나중에 다시 이 데이터들을 다시 합쳐야 되는 건가요? 아니면 print가 아닌 display로 나타내어서 따로따로 보이는 건가요?

pandas

回答 1

1

learnaday

@최원빈님 안녕하세요?

답변 드리겠습니다.

 

chunk_size 옵션으로 데이터를 나누어서 처리할 경우

메모리 공간에 나눈 만큼만 로드합니다.

애초에 chunk_size로 나누어서 로드하는 목적 자체가

한 번에 데이터를 메모리에 로드해서 처리하기 힘든 데이터 (즉, 사이즈가 10G혹은 20G가 넘어가서 PC의 RAM을 초과하는 경우)를 핸들링 하기 위한 목적이므로,

가용 가능한 만큼만 잘라서 로드해 주는 기능입니다.

따라서 데이터를 chunk (하나의 부분 덩어리) 별로 처리 및 조회해 주셔야 합니다 (예제 코드처럼 반복문 활용)

그렇다면, 질문 주신 내용인

"그러면 나중에 다시 이 데이터들을 다시 합쳐야 되는 건가요? 아니면 print가 아닌 display로 나타내어서 따로따로 보이는 건가요?"에 대한 답변은

파일형태로 저장을 해주시려면 나누어서 따로 저장할 수도 있고, 아니면 하나의 파일에 저장하고 싶다면 바로 저장해주시면 됩니다.

예제 코드에서는 반복문 안에서 출력 목적으로 display를 했기 때문에 따로따로 보이는 것이 맞습니다.

감사합니다.

 

작업형 1 유형 부분

0

13

1

작업형 1 (삭제예정, 구 버전)

0

33

2

수강기간 연장 문의드립니다.

0

21

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

24

3

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

27

2

Free Edition 실습 영상은 아직 업데이트전인가요?

0

22

1

질문 드립니다.

0

45

2

강의 내용 관련 질문드립니다~

0

43

2

수강 연장 문의

0

56

2

강의자료 일괄 다운로드

0

50

2

list 문제 질문드립니다~

0

35

2

빅분기 실기 12회 재도전

0

54

2

강의 기간 연장 가능여부 검토 요청건

0

39

2

수강기간 연장 문의 드립니다

0

43

2

수강기간 연장 문의드립니다

0

50

2

질문이요

0

56

2

수강기간 연장 문의드립니다.

0

58

2

한권으로 끝내는 판다스 노트

0

244

1

강의 누락 관련 질문

0

239

1

강의 교재 관련 질문

0

252

1

연습문제 #10 관련질문

0

216

1

연습문제 #9 - 타이타닉 승객 나이 결측치 채우기 (해설) 강의 질문

0

380

1

.5f 관련 질문

0

407

1