대용량 데이터 전처리 [분산 환경 수행] 방법
550
2 câu hỏi đã được viết
안녕하세요.
딥러닝 인공지능에 대한 학습을 마치고 핸드온으로 이어서 강의를 수강하고 있습니다.
먼저 좋은 강의 올려 주셔서 감사 합니다.
강의를 듣고 있는 중에 실제 현업에 적용시 궁금한 사항이 있어서 이렇게 질문을 남깁니다.
• pandas를 이용해 전처리를 수행 중에 대용량 데이터 건수를 전처리 하는 기능.
병렬 프로세스가 아닌 분산 환경에서 전처리를 할 수 있는 방법이 있을까요?
또 분산 환경에서 전처리를 수행할 경우 성능 개선 및 안정성, 효용성이 좋은 기술이 있을지 궁금합니다.
인터넷으로 검색하다 보면 modin/dask 등 몇 개의 라이브러리가 있던데 성능과 안정성, 유용성 등을 실제
경험해 보지 않아서 잘 모르겟습니다.
Câu trả lời 1
0
안녕하세요. 말씀하신 라이브러리가 대표적인 분산 처리 패키지인데요. 저도 사용해 보진 않아서 뭐라 말씀드리기 어렵네요. 아마 직접 Modin, Dask를 사용해 보시면 좋은 경험을 쌓으실 수 있을 것 같습니다. 감사합니다.
작업형 1 유형 부분
0
13
1
작업형 1 (삭제예정, 구 버전)
0
34
2
수강기간 연장 문의드립니다.
0
23
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
25
3
수강기간 연장 문의드립니다.
0
27
1
인덱스 슬라이싱
0
28
2
Free Edition 실습 영상은 아직 업데이트전인가요?
0
22
1
질문 드립니다.
0
45
2
20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.
0
20
1
강의 내용 관련 질문드립니다~
0
43
2
1판으로 들어도 크게 무리가 없을지요?
0
71
1
슬라이드 링크
0
550
1
128페이지의 코드에 대해 질문하고 싶습니다:)
0
328
2
[89페이지] 테스트 세트의 소득 카테고리 비율에 대해 질문이 있습니다.
0
299
1
훈련-개발 세트 문의
0
417
1
[84페이지] 특성값의 히스토그램 설명 부분
0
315
1
2부 강의에 관련하여
0
293
2
mnist 데이터가 안 불러와집니다.
0
403
1
책 내용 다시 질문합니다.
0
273
2
책 내용 질문입니다.
0
251
1
jupyterlab 관련해서 여쭤봐도 될까요?ㅠ
0
247
1
결측값 대체와 표준화에 관련해서 질문드립니다!
0
521
2
안녕하세요 2부 강의 기다리고 있습니다
2
385
1
안녕하세요. 유튜브로 강의 잘 보고 있습니다.
1
243
2

