inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Hands-On Machine Learning 2

대용량 데이터 전처리 [분산 환경 수행] 방법

560

pioneer

2 câu hỏi đã được viết

0

안녕하세요.

딥러닝 인공지능에 대한 학습을 마치고 핸드온으로 이어서 강의를 수강하고 있습니다.

먼저 좋은 강의 올려 주셔서 감사 합니다.

강의를 듣고 있는 중에 실제 현업에 적용시 궁금한 사항이 있어서 이렇게 질문을 남깁니다.

• pandas를 이용해 전처리를 수행 중에 대용량 데이터 건수를 전처리 하는 기능.

병렬 프로세스가 아닌 분산 환경에서 전처리를 할 수 있는 방법이 있을까요? 

또 분산 환경에서 전처리를 수행할 경우 성능 개선 및 안정성, 효용성이 좋은 기술이 있을지 궁금합니다. 

인터넷으로 검색하다 보면 modin/dask 등 몇 개의 라이브러리가 있던데 성능과 안정성, 유용성 등을 실제

경험해 보지 않아서 잘 모르겟습니다.

대용량 딥러닝 전처리 머신러닝 배워볼래요? pandas keras NLP tensorflow 강화학습 scikit-learn

Câu trả lời 1

0

haesunpark

안녕하세요. 말씀하신 라이브러리가 대표적인 분산 처리 패키지인데요. 저도 사용해 보진 않아서 뭐라 말씀드리기 어렵네요. 아마 직접 Modin, Dask를 사용해 보시면 좋은 경험을 쌓으실 수 있을 것 같습니다. 감사합니다.

기출 11회 작업형 2_전체 데이터 학습 여부

0

13

1

예측값 결과 소수점 차이

0

17

2

기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?

0

14

0

전처리 train() test([ ])

0

15

2

작업형 1 배경지식 질문

0

19

2

옳게 풀은건지 질문드립니다!

0

14

1

roc_auc_score

0

22

2

추가질문 합니다

0

16

2

시험환경 구름

0

18

2

2유형 질문드려요

0

15

2

1판으로 들어도 크게 무리가 없을지요?

0

82

1

슬라이드 링크

0

565

1

128페이지의 코드에 대해 질문하고 싶습니다:)

0

342

2

[89페이지] 테스트 세트의 소득 카테고리 비율에 대해 질문이 있습니다.

0

303

1

훈련-개발 세트 문의

0

426

1

[84페이지] 특성값의 히스토그램 설명 부분

0

325

1

2부 강의에 관련하여

0

303

2

mnist 데이터가 안 불러와집니다.

0

413

1

책 내용 다시 질문합니다.

0

282

2

책 내용 질문입니다.

0

263

1

jupyterlab 관련해서 여쭤봐도 될까요?ㅠ

0

256

1

결측값 대체와 표준화에 관련해서 질문드립니다!

0

534

2

안녕하세요 2부 강의 기다리고 있습니다

2

390

1

안녕하세요. 유튜브로 강의 잘 보고 있습니다.

1

250

2