chunk size 관련 질문
340
投稿した質問数 45
안녕하세요 선생님, read_csv를 할 때 chunksize관련 질문이 있어 글을 올립니다.
반복문을 사용하여 데이터를 로드 받은 것을 보니 각각 따로 데이터가 나뉘어져 있더라고요.
그러면 나중에 다시 이 데이터들을 다시 합쳐야 되는 건가요? 아니면 print가 아닌 display로 나타내어서 따로따로 보이는 건가요?
回答 1
1
@최원빈님 안녕하세요?
답변 드리겠습니다.
chunk_size 옵션으로 데이터를 나누어서 처리할 경우
메모리 공간에 나눈 만큼만 로드합니다.
애초에 chunk_size로 나누어서 로드하는 목적 자체가
한 번에 데이터를 메모리에 로드해서 처리하기 힘든 데이터 (즉, 사이즈가 10G혹은 20G가 넘어가서 PC의 RAM을 초과하는 경우)를 핸들링 하기 위한 목적이므로,
가용 가능한 만큼만 잘라서 로드해 주는 기능입니다.
따라서 데이터를 chunk (하나의 부분 덩어리) 별로 처리 및 조회해 주셔야 합니다 (예제 코드처럼 반복문 활용)
그렇다면, 질문 주신 내용인
"그러면 나중에 다시 이 데이터들을 다시 합쳐야 되는 건가요? 아니면 print가 아닌 display로 나타내어서 따로따로 보이는 건가요?"에 대한 답변은
파일형태로 저장을 해주시려면 나누어서 따로 저장할 수도 있고, 아니면 하나의 파일에 저장하고 싶다면 바로 저장해주시면 됩니다.
예제 코드에서는 반복문 안에서 출력 목적으로 display를 했기 때문에 따로따로 보이는 것이 맞습니다.
감사합니다.
기출 11회 작업형 2_전체 데이터 학습 여부
0
15
1
예측값 결과 소수점 차이
0
21
2
기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?
0
14
0
전처리 train() test([ ])
0
16
2
작업형 1 배경지식 질문
0
19
2
옳게 풀은건지 질문드립니다!
0
14
1
roc_auc_score
0
23
2
추가질문 합니다
0
17
2
시험환경 구름
0
18
2
2유형 질문드려요
0
17
2
RandomForest vs lgb
0
24
2
전처리 관련질문
0
25
3
작업형3 기출
0
18
2
유형2에서 데이터분할 생략 가능여부
0
30
2
9회 기출 유형3 질문
0
20
2
lgb 기초편
0
14
1
괄호 사용
0
24
2
작업형 2 데이터 전처리 질문
0
22
1
한권으로 끝내는 판다스 노트
0
259
1
강의 누락 관련 질문
0
247
1
강의 교재 관련 질문
0
258
1
연습문제 #10 관련질문
0
229
1
연습문제 #9 - 타이타닉 승객 나이 결측치 채우기 (해설) 강의 질문
0
396
1
.5f 관련 질문
0
412
1

