inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

단 두 장의 문서로 데이터 분석과 시각화 뽀개기

pupyter에서 큰 데이터를 불러오는 방법

339

소경문

작성한 질문수 1

1

강의를 발 보고 있습니다. 

공부한 내용을 제가 가지고 있는 데이터로 실습해보고 싶은데요..

데이터가 좀 커서 ( 2~5G) jupyter에서 load 하면 timeout 이 걸립니다. 

혹 용량이 큰 데이터를 로딩하는 좋은 방법이 있을런지요..^^

pandas python

답변 1

0

박조은

안녕하세요.

판다스로 데이터를 불러올 때 메모리 사용량 이상의 데이터를 로드하면 질문해 주신 것처럼 로드가 제대로 되지 않을때가 있습니다.

이에 대한 대안으로 dask, modin 과 같은 라이브러리의 도움을 받으면 되는데요.

dask라는 라이브러리는 pandas를 개발했던 개발자들이 만든 라이브러리라 그런지 pandas와의 호환성이나 문법도 유사한 부분이 많습니다.

dask는 데이터를 메모리에 모두 로드하지 않고 task(작업)로 불러와서 여러개의 스레드, 프로세스 등으로 나누어 작업을 하게 됩니다.

그래서 사용법을 보면 .mean()과 같은 평균 연산을 해도 바로 결과값이 보여지지 않고 .mean().compute() 연산을해야지만 메모리 상에 로드가 됩니다.

또, modin 이라는 라이브러리는 dask를 pandas 처럼 사용할 수 있도록 도와주는 도구가 있습니다.

자세한 내용은 아래 링크를 참고해 보세요.

[Flying Pandas - Modin, Dask and Vaex - Speaker Deck](https://speakerdeck.com/ianozsvald/flying-pandas-modin-dask-and-vaex)

날짜변환 에러

0

259

0

업로드자료 오류

1

373

1

20강 관련 문의드립니다.

1

299

1

17강 도입부 실습사이트 문의

2

298

1

4강 코드 오류메세지 관련 질의

1

374

2

merge와 그룹바이 관련 질문이 있습니다.

1

494

3

쉬운 도서 추천 좀 부탁드립니다.

2

393

2

1강2강에 있는 csv파일을 다운받으면 한글이 깨져서 나와요

1

251

1

주피터노트북 목록(contents) 만들기

1

632

1

df.loc[df["거주지"].isin(gu), "지역"] = df["거주지"] 질문있습니다

1

207

1

월 주 함꼐 value_counts()

1

223

1

day_count.iloc[i]와 day_count[i]의 차이 질문

1

350

1

df 인덱싱 질문입니다

1

184

1

그래프에 한글제목을 나타내고 싶습니다.

1

535

1

배운 것 기반으로 만들어보고 있는데 질문이 있습니다.

1

404

5

질문이요

1

300

1

set_index()

1

287

1

timeit 관련 질문

1

363

1

그래프 밑에 제목을 넣으려면 어떡해야하나요???

1

421

2

한글폰트 설치 후 나오지 않는 현상 문의

1

1171

3

CSV 파일 불러오기

1

571

1

크롤링으로 csv파일 가져오기

2

317

1

영상에서 소개해주시는 웹사이트

2

258

1

질문

1

228

2