inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

공공데이터로 파이썬 데이터 분석 시작하기

[9/15] 구별 음식점 분석으로 서브셋 만들기 - boolean Indexing 이해하기

PANDAS로 처리가 가능한 데이터 용량 관련

2142

김대영

작성한 질문수 12

1

데이터 처리에 대한 내용을 학습하다보니  2가지 문의를 드립니다.

1. Pandas가 처리 할수 있는 용량을 확인 한다면 메모리 기준으로 어느정도가 적당하고, 최대로 가능한가요??

2. 처리기준 최대가 넘어가는 큰사이즈의 데이터의 전처리 대안은 무엇이 있을까요 ?

pandas python numpy

답변 1

0

박조은

안녕하세요.

1. Pandas 가 처리할 수 있는 용량은 메모리 용량과 파일사이즈, 그리고 사용하고 있는 프로그램들이 사용하고 있는 메모리양도 중요합니다.

예를 들어 8G 메모리를 사용중인데 포토샵이나 크롬브라우저에서 이미 4G를 사용하고 있다면 주피터 노트북으로 가져와서 사용할 수 있는 메모리는 4G 이하로 줄어들 것입니다.

주피터 노트북이 느리거나 메모리 문제로 질문 주시는 분들 중에 이미 다른 프로그램을 많이 실행시켜 두어서 메모리 사용량이 적은 문제를 겪는 분들도 많으십니다.

그래서 대용량 파일을 불러와서 작업을 할 때는 메모리를 많이 차지하는 프로그램은 종료를 해야지 메모리를 더 많이 사용할 수 있습니다.

또 다른 주피터 노트북에서 이미 메모리를 많이 사용하고 있다면 그것도 꺼두시는게 더 많은 메모리를 사용할 수 있습니다.

아니면 재시작 하는게 나을 수도 있습니다.

그럼 이렇게 주피터 노트북이 사용할 수 있는 메모리 공간을 최대로 확보했다면 파일사이즈의 2~3배 정도의 메모리 공간이 있어야 로드해서 작업하는데 적당합니다.

파일을 로드하고 파생변수를 만들거나 데이터프레임을 복사하는 작업 등을 하면 그 만큼 메모리 용량이 늘어나게 됩니다.

2. 파일 사이즈가 큰 데이터는 모든 데이터가 필요하지 않을거에요.

그래서 해당 파일에서 필요한 내용만 서브셋으로 가져와서 사용하시는 것을 권장해요.

로드 > 서브셋 가져오기 > 파일로 저장하기 이렇게 하면 대용량 파일 여러개의 용량을 줄여서 사용할 수 있습니다.

그리고 기본 타입의 설정을 변경하는 것도 메모리 사용량을 줄이는데 도움이 됩니다.

예를 들어 숫자인데 문자로 되어 있다든지 숫자의 길이를 제한한다든지 int64 => int8로 줄이는 방법 등이 있습니다.

또, Dask 같은 라이브러리를 사용하는 방법도 있습니다.

이건 추가로 검색해 보시는 걸 추천해요.

패키지 설치 에러 ydata-profiling

0

120

2

자세한 설명 부탁드려요 ㅜ

0

176

2

seaborn 라이브러리 호출하였으나 그래프가 안 그려져요

0

287

2

value_counts와 count 차이

0

341

2

안녕하세요 데이터 최신과 관련해서 문의드립니다.

0

205

3

scatterplot질문

0

122

1

강의 화면이 안나옵니다

0

164

2

4분12초 2013년부터 데이터가 없으면 어떻게하나요?..

0

188

2

에러 메시지

1

303

2

그래프 색이 동일하게 나옵니다.

0

308

2

시각화 라이브러리 비교

0

382

2

주피터 노트북 설치

0

390

1

2. 상가 기술통계 아웃풋 자료에서 오류가 납니다

0

226

1

14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류

0

178

1

group by agg function failed 에러

0

687

2

빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.

0

288

2

주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요

0

363

3

get_string함수에서 문자 'nan'

0

200

1

seaborn X축 시작 지점 조정 질의의 건

0

213

1

14강 distplot 질의

0

289

1

nbextension 설치 및 셋팅 후 적용이 안되는 이슈

0

478

1

corr = df.corr() 입력시 오류

1

373

1

keyword grid_b is not recognized

0

336

1

%ls data 매직커맨드 사용시 한글 깨짐

0

293

1