대용량 데이터 전처리 [분산 환경 수행] 방법
561
작성한 질문수 2
안녕하세요.
딥러닝 인공지능에 대한 학습을 마치고 핸드온으로 이어서 강의를 수강하고 있습니다.
먼저 좋은 강의 올려 주셔서 감사 합니다.
강의를 듣고 있는 중에 실제 현업에 적용시 궁금한 사항이 있어서 이렇게 질문을 남깁니다.
• pandas를 이용해 전처리를 수행 중에 대용량 데이터 건수를 전처리 하는 기능.
병렬 프로세스가 아닌 분산 환경에서 전처리를 할 수 있는 방법이 있을까요?
또 분산 환경에서 전처리를 수행할 경우 성능 개선 및 안정성, 효용성이 좋은 기술이 있을지 궁금합니다.
인터넷으로 검색하다 보면 modin/dask 등 몇 개의 라이브러리가 있던데 성능과 안정성, 유용성 등을 실제
경험해 보지 않아서 잘 모르겟습니다.
답변 1
0
안녕하세요. 말씀하신 라이브러리가 대표적인 분산 처리 패키지인데요. 저도 사용해 보진 않아서 뭐라 말씀드리기 어렵네요. 아마 직접 Modin, Dask를 사용해 보시면 좋은 경험을 쌓으실 수 있을 것 같습니다. 감사합니다.
수업노트가 어디에 있나요?
0
12
1
실기시험 제출관련
0
142
2
6.20 작업형 2 과적합
0
150
3
코딩팡 장업형2 베이스 라인 인코딩 종류 질문
0
47
2
로지스틱회귀, 회귀
0
47
2
회귀 문제를 풀때 질문입니다.
0
53
1
불균형 처리 후 성능이 더 낮아졌다면,
0
61
2
실기 체험 제2유형 에러 문의
0
61
1
LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요
0
48
2
3번문제 등분산 가정
0
46
2
1판으로 들어도 크게 무리가 없을지요?
0
82
1
슬라이드 링크
0
566
1
128페이지의 코드에 대해 질문하고 싶습니다:)
0
343
2
[89페이지] 테스트 세트의 소득 카테고리 비율에 대해 질문이 있습니다.
0
304
1
훈련-개발 세트 문의
0
426
1
[84페이지] 특성값의 히스토그램 설명 부분
0
325
1
2부 강의에 관련하여
0
303
2
mnist 데이터가 안 불러와집니다.
0
413
1
책 내용 다시 질문합니다.
0
282
2
책 내용 질문입니다.
0
264
1
jupyterlab 관련해서 여쭤봐도 될까요?ㅠ
0
256
1
결측값 대체와 표준화에 관련해서 질문드립니다!
0
534
2
안녕하세요 2부 강의 기다리고 있습니다
2
391
1
안녕하세요. 유튜브로 강의 잘 보고 있습니다.
1
250
2





