inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

공공데이터로 파이썬 데이터 분석 시작하기

대용랑 데이터 전처리 [pandas 이용] 방법

370

pioneer

작성한 질문수 2

1

안녕하세요.

먼저 좋은 강의 올려 주셔서 감사합니다. 

"캐글 설문조사로 데이터 분석 입문하기" 수강하면서 강의가 너무 좋아

"공공 데이타.." 강의도 수강하게 되었습니다. 

강의를 듣고 있는 중에 실제 현업에 적용시 궁금한 사항이 있어서 이렇게 질문을 남깁니다.

• pandas를 이용해 전처리를 수행 중에 대용량 데이터 건수를 전처리 하는 기능.

병렬 프로세스가 아닌 분산 환경에서 전처리를 할 수 있는 방법이 있을까요? 

또 분산 환경에서 전처리를 수행할 경우 성능 개선 및 안정성, 효용성이 좋은 기술이 있을지 궁금합니다. 

인터넷으로 검색하다 보면 modin/dask 등 몇 개의 라이브러리가 있던데 성능과 안정성, 유용성 등을 실제

경험해 보지 않아서 잘 모르겟습니다.

대용량 전처리 pandas numpy python

답변 1

0

박조은

안녕하세요. 수강해 주셔서 감사합니다.

pandas 는 엑셀에 비해 대용량 데이터를 처리할 수 있지만 사용하고 있는 장비의 메모리나 CPU성능에 따라 성능차이가 많이 발생하게 됩니다.

또 메모리 4G정도의노트북에서 1G이상의 파일을 불러와서 처리하는 것도 부담이 되긴 합니다.

이럴 때 modin/dask 같은 라이브러리를 사용하는데 이런 라이브러리들은 메모리에 데이터프레임을 한번에 로드하지 않습니다.

그래서 pandas 만을 사용했을 때보다 메모리를 훨씬 효율적으로 사용할 수 있는데요.

데이터를 저장하고 관리할 때 어떤 형식으로 관리하는지도 이슈가 될 수 있습니다.

Parquet 라는 파일 형식을 사용하게 되면 행단위로 데이터를 관리하지 않고 컬럼단위로 관리하게 되는데 이렇게 관리하면 데이터 타입에 따라 낭비되는 메모리를 줄일 수 있습니다.

Parquet 로 검색을 추천합니다.

패키지 설치 에러 ydata-profiling

0

122

2

자세한 설명 부탁드려요 ㅜ

0

179

2

seaborn 라이브러리 호출하였으나 그래프가 안 그려져요

0

291

2

value_counts와 count 차이

0

347

2

안녕하세요 데이터 최신과 관련해서 문의드립니다.

0

206

3

scatterplot질문

0

123

1

강의 화면이 안나옵니다

0

166

2

4분12초 2013년부터 데이터가 없으면 어떻게하나요?..

0

190

2

에러 메시지

1

305

2

그래프 색이 동일하게 나옵니다.

0

312

2

시각화 라이브러리 비교

0

387

2

주피터 노트북 설치

0

391

1

2. 상가 기술통계 아웃풋 자료에서 오류가 납니다

0

228

1

14. distplot g = sns.FacetGrid(df_last, row="지역명", height=1.7, aspect=4) g.map(sns.distplot, "평당분양가격", hist=False, rug=True); 오류

0

179

1

group by agg function failed 에러

0

689

2

빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.

0

289

2

주피터 노트북 실행 했는데 앞에 *가 생기고 결과가 나오지 않아요

0

366

3

get_string함수에서 문자 'nan'

0

201

1

seaborn X축 시작 지점 조정 질의의 건

0

215

1

14강 distplot 질의

0

290

1

nbextension 설치 및 셋팅 후 적용이 안되는 이슈

0

481

1

corr = df.corr() 입력시 오류

1

375

1

keyword grid_b is not recognized

0

338

1

%ls data 매직커맨드 사용시 한글 깨짐

0

296

1