pupyter에서 큰 데이터를 불러오는 방법

Question

강의를 발 보고 있습니다.

공부한 내용을 제가 가지고 있는 데이터로 실습해보고 싶은데요..

데이터가 좀 커서 ( 2~5G) jupyter에서 load 하면 timeout 이 걸립니다.

혹 용량이 큰 데이터를 로딩하는 좋은 방법이 있을런지요..^^

Answer

안녕하세요.

판다스로 데이터를 불러올 때 메모리 사용량 이상의 데이터를 로드하면 질문해 주신 것처럼 로드가 제대로 되지 않을때가 있습니다.

이에 대한 대안으로 dask, modin 과 같은 라이브러리의 도움을 받으면 되는데요.

dask라는 라이브러리는 pandas를 개발했던 개발자들이 만든 라이브러리라 그런지 pandas와의 호환성이나 문법도 유사한 부분이 많습니다.

dask는 데이터를 메모리에 모두 로드하지 않고 task(작업)로 불러와서 여러개의 스레드, 프로세스 등으로 나누어 작업을 하게 됩니다.

그래서 사용법을 보면 .mean()과 같은 평균 연산을 해도 바로 결과값이 보여지지 않고 .mean().compute() 연산을해야지만 메모리 상에 로드가 됩니다.

또, modin 이라는 라이브러리는 dask를 pandas 처럼 사용할 수 있도록 도와주는 도구가 있습니다.

자세한 내용은 아래 링크를 참고해 보세요.