BEST

데이터 사이언스 데이터 엔지니어링

스파크 머신러닝 완벽 가이드 - Part 1 대시보드

(4.9) 22개의 수강평 ∙ 798명의 수강생

권 철민

Apache Spark 머신러닝 빅데이터 데이터 엔지니어링

99,000원

월 19,800원

5개월 할부 시

지식공유자: 권 철민

총 117개 수업 (24시간 27분)

수강기한:

수료증: 발급

난이도: --

지식공유자 답변이 제공되는 강의입니다

폴더에 추가 821

중급자를 위해 준비한
[데이터 엔지니어링, 딥러닝 · 머신러닝] 강의입니다.

스파크(Spark) 머신러닝의 핵심 Framework에 대한 이해, 난이도 높은 실전 문제를 통한 SQL 기반의 데이터 가공, 업무 도메인 분석을 통한 데이터 분석과 최적화된 머신러닝 모델 구현 능력까지, 대용량 데이터 기반에서 머신러닝 전문가로 인정 받고 싶다면 이 강의와 함께 하십시요.

✍️
이런 걸
배워요!

스파크에서 머신러닝 모델 구현하기

스파크의 데이터 처리 기반인 DataFrame에 대한 상세한 이해

스파크 머신러닝 Framework을 구성하는 다양한 기술 요소 이해

스파크의 머신러닝 파이프 라인 익히기

데이터 분석을 위한 SQL 활용 능력

SQL 기반의 Feature Engineering 기법

스파크에서 XGBoost와 LightGBM으로 모델 구현하기

베이지안 최적화 기반의 모델 하이퍼 파라미터 튜닝 방법

난이도 높은 실전 문제를 통해 데이터 분석과 ML 모델 구현 실력을 동시에 향상

분석 도메인 기반의 데이터 분석 방법

여러가지 데이터 시각화 기법

데이터 분석 + 피처 엔지니어링 + ML 구현,
세 가지 역량을 한번에 잡아보세요.

Apache Spark와
머신러닝의 만남.

오픈 소스 대용량 분산 처리 솔루션의 최강자인 Apache Spark(아파치 스파크)와 Machine Learning이 만났습니다.

국내 많은 대기업과 금융기관에서 Apache Spark를 활용하여 대용량 데이터를 분석하고 머신 러닝 모델을 만들고 있습니다. Spark는 분산 데이터 처리 프레임을 기반으로 하고 있기 때문에 적게는 수 대부터 많게는 수십 대의 서버 위에서 용량을 확장해 가면서 대용량 데이터를 처리하고 ML 모델을 만들 수 있습니다. 때문에 한 대의 서버에서만 머신러닝 모델 구현이 가능한 사이킷런의 한계를 벗어날 수 있습니다.

데이터 가공/분석에도 능한
머신러닝 전문가로
성장시켜 드리겠습니다.

'스파크 머신러닝 완벽 가이드 - Part 1' 강의는 스파크(Spark)에서 머신러닝 모델을 구현하는 방법을 익히는 것을 넘어서 데이터 가공과 분석에도 능한 머신러닝 전문가로 여러분을 성장시켜 드릴것입니다.

진정한 머신러닝 전문가로 성장하기 위해서는 비단 ML 구현 능력 뿐만 아니라 업무 데이터를 어떻게 가공하고 조합하여 ML 모델을 만들어 내는 능력 역시 매우 중요합니다. 이를 위해 실무에서 대용량 데이터 처리에 가장 많이 사용되는 SQL을 활용하여 데이터를 가공하는 법과 업무 도메인 분석에 기반한 데이터 분석 기법을 실습을 통해서 익히시게 될 것입니다.

_{상세한 이론 설명 및 실습을 통해 데이터 가공/분석 및 ML 구현 역량을 키울 수 있도록 구성하였습니다.}

여러분이 직면할 문제를
해결해드립니다.

스파크 기반에서 머신러닝 모델을 구현하기는 쉽지 않습니다. 바로 스파크 아키텍처 특수성에 기반한 독특한 머신러닝 API와 프레임워크, 그리고 SQL에 기반한 데이터 처리 등 기존 데이터 사이언티스트나 머신 러닝 전문가들이 겪어보지 못한 많은 문제에 봉착하기 때문입니다.

본 강의, 스파크 머신러닝 완벽 가이드를 통해 여러분이 봉착한 문제를 해결하는 능력을 길러드리겠습니다.

'스파크 머신러닝 완벽 가이드 - Part 1' 강의 전반부는

강의 전반부는 스파크 Machine Learning Framework을 구성하는 다양한 요소들인 DataFrame, SQL, Estimator, Transformer, Pipeline, Evaluator 등에 대해서 상세한 이론 설명과 풍부한 실습으로 구성되어 있습니다. 이를 통해 여러분은 Spark에서 ML 모델을 쉽고 빠르게 구현하실 수 있을 것입니다.

또한 스파크에서 XGBoost와 LightGB을 사용하는 방법, 베이지안 최적화에 기반한 HyperOpt를 이용하여 하이퍼 파라미터를 튜닝하는 방법에 대해서 자세히 설명 드리겠습니다.

'스파크 머신러닝 완벽 가이드 - Part 1' 강의 후반부는

강의 후반부는 캐글의 Instacart Market Basket Analysis 경연 대회 실습을 통해서 여러분의 실전 데이터 가공/분석 능력과 머신러닝 모델 구현 능력을 동시에 향상 시켜 드릴 것입니다. 캐글 Instacart 경연대회는 난이도 높은 경연이며, 특히 데이터 세트가 전자 상거래의 주문 처리 테이블들(상품, 주문, 주문 상품)로 구성되어 있습니다.

해당 데이터 세트를 통해 SQL 기반에서 업무 데이터를 어떻게 가공하고 분석하며 Feature Engineering을 수행하는지, 또한 업무에서 분석 도메인을 어떻게 도출하는지, 그리고 이렇게 도출된 Feature 들을 기반으로 어떻게 모델을 생성하는 지에 대해서 상세하게 배우시게 될 것 입니다.

이번에 출시하는 '스파크 머신러닝 완벽 가이드' 강의는 Part 1입니다. Part 2 강의는 추후에 출시 예정이며, 텍스트 분석, 추천(Recommendation), 그리고 TimeSeries 분석을 다룰 예정입니다.

💻 수강 전 확인해주세요!

본 강의의 실습 코드는 모두 Python 기반으로 되어 있습니다. Scala는 다루지 않으니 강의 선택 전 참조 부탁드립니다.

실습 환경을
확인해주세요.

실습은 Databricks(데이터브릭스)를 이용합니다. Databricks는 Spark를 설치하지 않고도 클라우드 상에서 Spark 기반의 애플리케이션을 만들 수 있는 노트북 환경을 제공합니다.

Databricks는 Community 버전으로 공식적으로 14일간 무료 사용이 가능합니다.
그리고 섹션 0의 'Databricks에서 Spark 클러스터 관리하기 및 가입 2주 후에도 Databricks 사용하기' 강의 영상에서 14일 이후에도 무료로 계속 사용할 수 있는 방법에 대해서 말씀드리고 있으니 꼬~옥 해당 영상을 확인 부탁드립니다(Databricks Community 버전에 대한 설명은 링크를 참조해 주십시오).

강의 실습 코드와 강의 설명 자료는 '실습코드와 설명자료 다운로드 받기'에서 다운로드 받으실 수 있습니다.

선수 지식이
필요한 강의입니다.

본 강의는 수강생 분들이 파이썬 머신러닝 완벽 가이드의 5장(회귀) 또는 이에 준하는 지식을 가지고 있는 것으로, 또한 SQL에 대한 매우 기본적인 부분은 아시는 것으로 간주하고 구성되었으니 강의 선택시 위 사항 참조 부탁드립니다.

Spark는 기본적인 부분을 아시면 좋지만, 몰라도 강의를 따라가시는 데 문제가 없으실 것입니다.

선수 강의를 확인해주세요!

파이썬 머신러닝 완벽 가이드

이론 위주의 머신러닝 강의는 그만,
머신러닝의 핵심 개념부터 실전 역량까지 쉽고 정확하게.

_{지식공유자의 인터뷰가 궁금하다면? (클릭)}

🎓
학습 대상은
누구일까요?

스파크를 이용하여 머신러닝을 구현하고자 하시는 분

대용량 데이터 기반에서 머신러닝을 구현하고자 하시는 분

SQL을 이용하여 머신러닝을 위한 데이터 처리 기법을 향상시키기를 원하시는 분

실전에서 원하는 형태로 데이터를 가공하고 이를 기반으로 ML 모델을 생성하는 모든 과정을 익히기 원하시는 분

데이터 분석과 Feature Engineering 능력 그리고 ML 구현을 함께 향상시키고 싶으신 분

📚
선수 지식,
필요할까요?

파이썬 머신러닝 완벽가이드의 5장(회귀) 까지 이해 또는 이에 준하는 선수 지식

SQL 기본 이해

(전) 엔코아 컨설팅

(전) 한국 오라클

AI 프리랜서 컨설턴트

파이썬 머신러닝 완벽 가이드 저자

이 강의는 영상, 첨부 파일이 제공됩니다. 미리보기를 통해 콘텐츠를 확인해보세요.

섹션 0. 강의 소개 및 실습 환경 구축. 6 강 ∙ 50분

강의 소개 미리보기 09:33 실습 환경을 위해 Databricks 커뮤니티 Edition 가입하기. 미리보기 12:32 Databricks 접속하기 및 Spark 클러스터 신규 생성하기 미리보기 06:26 Databricks 노트북(notebook) 사용하기 미리보기 09:43 Databricks에서 Spark 클러스터 관리하기 및 가입 2주 후에도 Databricks 무료로 사용하기 미리보기 12:43

강의 자료와 실습 코드 다운로드 받기

섹션 1. Spark 개요 4 강 ∙ 52분

분산 데이터 아키텍처와 Spark 개요 미리보기 15:14

Spark 아키텍처와 RDD 개요 12:43

Spark의 RDD, DataFrame, SQL 비교 11:48

Spark Machine Learning 개요 12:28

섹션 2. Spark DataFrame의 이해 - 01 10 강 ∙ 2시간 11분

Pandas DataFrame과 Spark DataFrame 비교 미리보기 13:50

실습용 ipynb 파일을 Databricks에 로드하기 01:19

csv파일을 로드하여 Spark DataFrame 생성하기 및 head()와 limit() 이해하기 미리보기 14:03 printSchema()와 describe() 이해하기 미리보기 13:21 select() 메소드 이해하기 미리보기 17:54 filter() 메소드 이해하기 미리보기 15:11 orderBy() 메소드를 이용하여 정렬하기 미리보기 13:44 aggregation 적용하기 미리보기 11:06

groupBy() 메소드 이해하기 - 01 14:03

groupBy() 메소드 이해하기 - 02 16:31

섹션 3. Spark DataFrame의 이해 - 02 9 강 ∙ 1시간 57분

Spark DataFrame API 학습시 유의사항 및 withColumn()으로 신규 컬럼 추가, 컬럼 update, 컬럼타입 변경하기 - 01 미리보기 15:27

withColumn()으로 신규 컬럼 추가, 컬럼 update, 컬럼타입 변경하기 - 02 10:07

Spark DataFrame의 컬럼과 레코드 삭제하기 13:43

Spark DataFrame의 Null인 레코드 삭제하기 09:33

Pandas와 Spark DataFrame에서 None, Null 그리고 NaN 구분하기 12:06

Spark DataFrame에서 Null과 NaN 데이터 찾기 14:55

Spark DataFrame의 결손 데이터 처리하기 18:12

Spark DataFrame에 사용자 정의함수(UDF) 적용하기 11:35

Spark DataFrame에 when을 적용하여 조건별로 데이터 처리하기 11:47

섹션 4. Spark SQL 개요 4 강 ∙ 49분

Spark SQL 실습 및 DataFrame API 복습 - 01 미리보기 13:31

Spark SQL 실습 및 DataFrame API 복습 - 02 13:29

Spark SQL 실습 및 DataFrame API 복습 - 03 03:40

Databricks에 내장된 그래프 기능으로 SQL 수행 결과를 차트 시각화 표현하기 18:35

섹션 5. Spark Machine Learning의 이해 - 01 14 강 ∙ 3시간 7분

Spark Machine Learning의 주요 특징과 구성요소 16:02

Spark Machine Learning으로 붓꽃 데이터 예측 ML 모델 구현하기 - 01 미리보기 14:12

Spark Machine Learning으로 붓꽃 데이터 예측 ML 모델 구현하기 - 02 17:34

Spark Machine Learning으로 붓꽃 데이터 예측 ML 모델 구현 로직 정리 14:24

Pipeline의 이해 09:45

Pipeline 실습 11:55

교차검증과 그리드 기반 하이퍼 파라미터 튜닝 개요 06:13

교차 검증과 그리드 기반 하이퍼 파라미터 튜닝 실습 - 01 16:09

교차 검증과 그리드 기반 하이퍼 파라미터 튜닝 실습 - 02 28:24

TrainValidationSplit로 하이퍼 파라미터 튜닝 실습 09:55

MLFlow Tracking 개요 09:27

인코딩 개요 및 레이블 인코딩 실습 09:52

원핫 인코딩 실습 14:12

Standard Scaling과 MinMax Scaling 적용하기 09:47

섹션 6. Spark Machine Learning의 이해 - 02 5 강 ∙ 1시간 22분

타이타닉 생존자 예측 ML 모델 구현하기 - 기본 EDA 11:00

타이타닉 생존자 예측 ML 모델 구현하기 - SQL과 Databricks의 그래프 기능을 이용한 EDA - 01 22:03

타이타닉 생존자 예측 ML 모델 구현하기 - SQL과 Databricks의 그래프 기능을 이용한 EDA - 02 미리보기 11:57

타이타닉 생존자 예측 ML 모델 구현하기 - 결손 데이터 처리, 컬럼 가공, 인코딩 수행하기 18:01

타이타닉 생존자 예측 ML 모델 구현하기 - 학습/예측/평가 및 교차 검증과 하이퍼 파라미터 튜닝하기 19:50

섹션 7. Spark ML Classification(분류) - 01 12 강 ∙ 2시간 9분

Spark ML Library의 장단점과 Classification(분류) 지원 클래스 미리보기 09:17

Spark DecisionTreeClassifier, RandomForestClassifier, GBTClassifier의 개요 및 주요 하이퍼 파라미터 11:23

DecisionTreeClassifier 학습 및 예측 실습 미리보기 14:11

RandomForestClassifier, GBTClassifier 학습 및 예측 실습 09:32

Spark ML Classification을 위한 Evaluation 개요 06:39

Spark ML Classification을 위한 Evaluation 실습 16:21

Databricks용 XGboost의 이해 및 주요 하이퍼 파라미터 09:38

Databricks Spark에서 XGBoost 학습 및 예측 실습 - 01 08:50

Databricks Spark에서 XGBoost 학습 및 예측 실습 - 02 15:37

Spark LightGBM을 위한 mmlspark 라이브러리를 Databrick에 설치하기 10:02

Spark LightGBM의 주요 하이퍼 파라미터 07:08

Spark에서 LightGBM 학습 및 예측 실습 11:16

섹션 8. Spark ML - Classification(분류) - 02 7 강 ∙ 1시간 23분

HyperOpt를 이용한 Bayesian 최적화 강의 시작 전 공지 04:03

그리드 기반 하이퍼 파라미터 튜닝의 문제와 베이지안 최적화 기반의 하이퍼 파라미터 튜닝 이해 16:11

베이지안 최적화로 하아퍼 파라미터 튜닝 - HyperOpt 실습 미리보기 13:18

Kaggle Santander 데이터 세트 로딩 및 전처리 10:18

Kaggle Santander 데이터를 Stratified 기반으로 나누기 12:15

HyperOpt를 이용하여 XGBoost 하이퍼 파라미터 튜닝 22:00

HyperOpt를 이용하여 LightGBM 하이퍼 파라미터 튜닝 05:52

섹션 9. Spark ML Regression(회귀) 4 강 ∙ 44분

회귀 개요 06:09

Spark ML Regression 개요와 LinearRegression Estimator 상세 09:25

Spark 선형회귀 실습 14:33

Spark 규제 선형회귀 및 회귀 트리 실습 14:35

섹션 10. 실전 머신 러닝을 위한 데이터 분석의 이해 6 강 ∙ 1시간 9분

분석 도메인(Domain)의 이해 미리보기 11:35

주요 도메인에 따른 분석 요소 도출 하기 11:40

분석을 위한 주요 데이터 처리 기술 및 데이터 연결관계의 이해 14:57

SQL 조인 시 데이터 집합 레벨 변화 및 Inner, Left/Right Outer 조인의 이해 12:31

SQL Group by와 Group by Case When의 이해 12:23

Feature Engineering의 개요 06:51

섹션 11. 실전 머신러닝 - 캐글 Instacart Market Basket Analysis 경연 개요 5 강 ∙ 1시간 1분

캐글 Instacart Market Basket Analysis 경연 대회 소개 및 경연용 데이터 세트 설명 개요 11:37

캐글 Instacart 데이터 세트를 다운로드 후 Databricks로 업로드 하기 06:18

캐글 Instacart 데이터 세트를 Spark DataFrame으로 변환 및 SQL 적용을 위한 테이블 변환 12:33

캐글 Instacart 데이터 세트의 주요 테이블 이해 - 01 16:03

캐글 Instacart 데이터 세트의 주요 테이블 이해 - 02 14:29

섹션 12. 실전 머신러닝 - 캐글 Instacart 데이터의 SQL 기반 EDA 분석 13 강 ∙ 3시간 4분

SQL로 특정 컬럼별 분포도와 히스토그램 도출하기 및 시각화 - 01 미리보기 15:19

SQL로 테이블의 특정 컬럼별 분포도와 히스토그램 도출하기 및 시각화 - 02 13:19

SQL로 상품코드/상품 중분류/상품 대분류 별로 전체주문/재주문 건수 및 재주문 비율 분석 및 시각화 17:04

Spark SQL 수행 결과를 Databricks 시각화를 사용하지 않고 Matplotlib과 Seaborn으로 시각화 하기 12:14

SQL로 상품별 재주문 건수 및 비율 분석과 시각화 - 01 23:25

SQL로 상품별 재주문 건수 및 비율 분석과 시각화 - 02 22:59

SQL로 상품코드/상품 중분류별 고유 사용자 건수 및 비율 분석과 시각화 27:26

SQL로 상품별 이전주문 이후 걸린 기간/요일/시간 속성 분석과 시각화 12:36

사용자별 개별 속성 분석, 사전 환경 준비 및 기반 테이블 생성 04:53

사용자별 주문 건수 관련 속성 분석과 시각화 - 01 05:08

사용자별 주문 건수 관련 속성 분석과 시각화 - 02 09:39

사용자별 재주문 관련, 이전 주문 이후 걸린 기간등의 속성 분석과 시각화 11:50

사용자-상품별 관련 속성 분석과 시각화 08:29

섹션 13. 실전 머신러닝 - 캐글 Instacart 피처 엔지니어링, 모델 학습, 평가, 튜닝 - 01 12 강 ∙ 2시간 23분

Instacart의 피처 엔지니어링을 통한 ML 학습 모델용 테이블(데이터 세트) 생성 개요 10:58

사용자레벨, 상품레벨, 사용자-상품레벨의 분석 테이블 만들기 - 01 미리보기 14:37

사용자레벨, 상품레벨, 사용자-상품레벨의 분석 테이블 만들기 - 02 12:53

사용자-상품 레벨로 모든 분석 테이블 결합하기 14:19

ML 모델을 위한 학습과 테스트 테이블(데이터 세트) 생성하기 - 01 15:28

ML 모델을 위한 학습과 테스트 테이블(데이터 세트) 생성하기 - 02 12:20

학습과 테스트 테이블을 Parquet 파일에서 재 로딩하기 03:59

학습 데이터 전처리 및 랜덤 포레스트 모델로 학습하기 09:28

학습된 랜덤 포레스트 모델로 예측하기 08:59

예측된 결과를 Kaggle 제출을 위한 Submission 파일로 만들기 - 01 14:48

예측된 결과를 Kaggle 제출을 위한 Submission 파일로 만들기 - 02 23:49

Kaggle에서 Submission 결과 확인하기 01:32

섹션 14. 실전 머신러닝 - 캐글 Instacart 피처 엔지니어링, 모델 학습, 평가, 튜닝 - 02 6 강 ∙ 1시간 19분

LightGBM으로 모델 재학습 및 평가 - Databricks 클러스터 재 생성 및 mmlspark 라이브러리 import하기 07:33

LightGBM으로 모델 학습 수행 15:47

LightGBM 모델로 예측 후 Kaggle에서 평가 받기 18:46

hyperopt를 이용하여 LightGBM 하이퍼 파라미터 튜닝하기 - 01 12:56

hyperopt를 이용하여 LightGBM 하이퍼 파라미터 튜닝하기 - 02 16:13

hyperopt를 이용하여 LightGBM 하이퍼 파라미터 튜닝하기 - 03 07:54

강의 게시일 : 2021년 12월 09일 (마지막 업데이트일 : 2023년 04월 25일)

수강생분들이 직접 작성하신 수강평입니다.

4.9

22개의 수강평

5점

4점

3점

2점

1점

VIEW 추천 순 최신 순 높은 평점 순 낮은 평점 순 평점 순 높은 평점 순 낮은 평점 순

강사님의 딕션과 목소리에 집중하기 좋았고, 컨텐츠 또한 탄탄합니다. 앞으로도 좋은 강의 만들어주세요. 감사합니다.

2022-02-09

덕분에 spark에 대해서 알게되었고 캐글도전에도 자신감을 얻게 되었스빈다 감사합니다 !

2022-01-14

권철민님 강의 시리즈를 쭉 들어온 수강생입니다! 여전히 양질의 강의를 제공해주셔서 감사합니다! 그리고 Spark 강의가 Scala, Java로 구성된 강의들을 몇 번 보았지만 Python으로 Spark를 알려주시는 강의는 처음이어서 더 좋았던 것 같네요! 아직 완강하지는 않았지만, 여전히 간단한 문법도 최대한 쉽게 알려주시려고 하는 게 가장 좋네요! 그리고 반복 숙달을 유도하기 위해 다양한 실습자료를 제공해주시는 것도 좋습니다! 앞으로 다른 강의들도 기대가 됩니다!

2022-02-07

차근차근 잘 알려주셔서 감사합니다

2022-01-03

파이썬 머신러닝 완벽가이드 통해서 권철민선생님을 처음 알게 되었습니다. 그 강의를 통해서 비전공자였던 저는 포기하려고 했던 이 분야를 포기하지 않을 수 있었습니다. 현재 이 분야에서 일을 하면서 이렇게 인프런 강의를 들으며 공부도 꾸준히 하고 있습니다. 선생님께 감사하다는 말씀을 전하고 싶어서 처음에 질문답변 사안에 선생님께 감사하다는 말씀을 드렸었는데, 선생님께서 꾸준히 하면 노력한 바를 이룰 수 있을 거라고 응원하면서 말씀해주셨습니다. 앞으로도 선생님께서 강의하시는 것 꾸준히 들을 예정입니다. ^^ㅎㅎ 그만큼 정말 잘 가르쳐주십니다. 권철민 선생님 이 자리를 빌러, 진심으로 정말 감사합니다.

2022-02-04

지식공유자 권 철민

이렇게 가슴 뭉클한 수강평을 남겨 주시다니 제가 더 감명 받았습니다. 강의를 만드는 수고를 한 순간에 보상받는 글이여서 제가 오히려 감사드려야 할 것 같습니다. 앞으로도 계속 이렇게 정진하신다면, 원하는 모든 일 확실히 다 성취 하실 것입니다. 감사합니다.

2022-02-04 6

스파크 머신러닝 완벽 가이드 - Part 1 대시보드

중급자를 위해 준비한 [데이터 엔지니어링, 딥러닝 · 머신러닝] 강의입니다.

Apache Spark와 머신러닝의 만남.

데이터 가공/분석에도 능한 머신러닝 전문가로 성장시켜 드리겠습니다.

여러분이 직면할 문제를 해결해드립니다.