• 카테고리

    질문 & 답변
  • 세부 분야

    딥러닝 · 머신러닝

  • 해결 여부

    미해결

대용량 데이터 전처리 [분산 환경 수행] 방법

21.02.19 11:36 작성 조회수 259

0

안녕하세요.

딥러닝 인공지능에 대한 학습을 마치고 핸드온으로 이어서 강의를 수강하고 있습니다.

먼저 좋은 강의 올려 주셔서 감사 합니다.

강의를 듣고 있는 중에 실제 현업에 적용시 궁금한 사항이 있어서 이렇게 질문을 남깁니다.

• pandas를 이용해 전처리를 수행 중에 대용량 데이터 건수를 전처리 하는 기능.

병렬 프로세스가 아닌 분산 환경에서 전처리를 할 수 있는 방법이 있을까요? 

또 분산 환경에서 전처리를 수행할 경우 성능 개선 및 안정성, 효용성이 좋은 기술이 있을지 궁금합니다. 

인터넷으로 검색하다 보면 modin/dask 등 몇 개의 라이브러리가 있던데 성능과 안정성, 유용성 등을 실제

경험해 보지 않아서 잘 모르겟습니다.

답변 1

답변을 작성해보세요.

0

안녕하세요. 말씀하신 라이브러리가 대표적인 분산 처리 패키지인데요. 저도 사용해 보진 않아서 뭐라 말씀드리기 어렵네요. 아마 직접 Modin, Dask를 사용해 보시면 좋은 경험을 쌓으실 수 있을 것 같습니다. 감사합니다.