강의

멘토링

커뮤니티

인프런 커뮤니티 질문&답변

소경문님의 프로필 이미지
소경문

작성한 질문수

단 두 장의 문서로 데이터 분석과 시각화 뽀개기

pupyter에서 큰 데이터를 불러오는 방법

작성

·

335

1

강의를 발 보고 있습니다. 

공부한 내용을 제가 가지고 있는 데이터로 실습해보고 싶은데요..

데이터가 좀 커서 ( 2~5G) jupyter에서 load 하면 timeout 이 걸립니다. 

혹 용량이 큰 데이터를 로딩하는 좋은 방법이 있을런지요..^^

답변 1

0

박조은님의 프로필 이미지
박조은
지식공유자

안녕하세요.

판다스로 데이터를 불러올 때 메모리 사용량 이상의 데이터를 로드하면 질문해 주신 것처럼 로드가 제대로 되지 않을때가 있습니다.

이에 대한 대안으로 dask, modin 과 같은 라이브러리의 도움을 받으면 되는데요.

dask라는 라이브러리는 pandas를 개발했던 개발자들이 만든 라이브러리라 그런지 pandas와의 호환성이나 문법도 유사한 부분이 많습니다.

dask는 데이터를 메모리에 모두 로드하지 않고 task(작업)로 불러와서 여러개의 스레드, 프로세스 등으로 나누어 작업을 하게 됩니다.

그래서 사용법을 보면 .mean()과 같은 평균 연산을 해도 바로 결과값이 보여지지 않고 .mean().compute() 연산을해야지만 메모리 상에 로드가 됩니다.

또, modin 이라는 라이브러리는 dask를 pandas 처럼 사용할 수 있도록 도와주는 도구가 있습니다.

자세한 내용은 아래 링크를 참고해 보세요.

[Flying Pandas - Modin, Dask and Vaex - Speaker Deck](https://speakerdeck.com/ianozsvald/flying-pandas-modin-dask-and-vaex)

소경문님의 프로필 이미지
소경문

작성한 질문수

질문하기