로드맵 썸네일

실전 데이터 사이언스 기본 과정

작성자 프로필 이미지

김화종

Python
머신러닝
Pandas
입문 강의 아이콘

입문 대상

3개 강의

로드맵 참여중인 유저 프로필 사진
로드맵 참여중인 유저 프로필 사진

89명 참여중

30% 할인

3개 남음전체 구매 적용
쿠폰 받기

로드맵 코스

데이터 사이언스 활용을 위한 핵심만 모아,
파이썬 문법 + 데이터 전처리 + 머신러닝 학습!

Data Science?

현업에서 본인의 업무에 데이터 사이언스를 적용하고 인공지능 서비스를 구현하는 전문가를 "시티즌 데이터 사이언티스트"라고 합니다. 이들 중에는 컴퓨터 공학을 전공하지 않은 경우가 대부분이며, 훌륭한 데이터 사이언티스트가 되기 위해서 배워야 할 내용이 많아 학습 부담이 큰 것이 현실입니다.

본 "실전 데이터 사이언스 기본 과정"에서는 1)파이썬의 핵심 내용, 2)데이터 전처리의 필수 사항 그리고 3)머신러닝의 기본 개념을 최소한의 시간투자로 습득하는 것을 목적으로 합니다.

본 강의는 자신의 업무에 데이터 사이언스를 적용하려는 분은 전공에 관계없이 누구나 들을 수 있습니다. 상세한 설명을 하지는 않지만 핵심 내용을 이해하고 본인의 업무에 활용할 수 있도록 모든 내용을 예제 중심으로 설명합니다.

본 강의는 지난 3년간 2천여 시간의 기업 데이터 사이언티스트 양성 프로그램 운영으로부터 얻은 결과이며, 실전에서 꼭 알아야 할 주요 내용을 단계별로 정리한 것입니다. 여러분 모두 인기 있는 데이터 사이언티스트가 되기를 희망합니다.


추천 학습자

데이터사이언스?

데이터를 다뤄본 적이 
없었던 분들

핵심만 정확히

실전에 필요한 내용을 
집중적으로 배울 분

궁금해요

실습 예제 중심으로 
공부하고픈 분

도전!

데이터 사이언티스트 
되고픈 누구나 OK

로드맵 코스

로드맵에 포함된 강의 썸네일
실전 데이터 사이언스 Part1. 파이썬 입문
이 강의에서는 현장에서 필요한 파이썬의 핵심적인 내용을 중점적으로 다룹니다.  

먼저, 주피터 노트북과 깃허브 사용법을 배웁니다. 파이썬 기초 문법에서 숫자, 문자열, 불리언 변수를 다루는 것과 여러 개의 데이터를 묶어서 처리하기 위한 리스트, 튜플, 딕셔너리 사용법을 배웁니다. 

다음에는, 판다스 패키지가 제공하는, 2차원 테이블 구조인 데이터프레임의 조작법을 배우고, 넘파이가 제공하는 매트릭스(배열)의 수치 연산 방법을 다룹니다.

대표적인 시각화 함수인 plot, scatter, hist, boxplot, bar 사용법과 특징을 소개합니다.

파이썬의 가장 큰 장점은 "데이터에 함수를 편리하게 적용"하는 것입니다. 여러 가지 함수 적용 방법인 lambda, map, apply의 사용법을 배웁니다.

66,000

로드맵에 포함된 강의 썸네일
실전 데이터 사이언스 Part2. 데이터 전처리
기업에서 데이터를 다루는 실무자가 가장 많은 시간을 투자해야 하고, 실제로 데이터 분석 (머신러닝) 성능에 가장 큰 영향을 주는 작업이 데이터 전처리입니다.

데이터 전처리 주요 내용인 1)데이터클리닝, 2)스케일링, 3)이상치 처리, 4)데이터변환(로그변환, 카테고리 인코딩)의 기본개념을 배웁니다.

본격적인 데이터 분석에 앞서 데이터의 전체적인 특성을 살펴보고 수집한 데이터가 분석에 적절한지 알아보는 탐색적 분석(EDA) 방법을 배웁니다.

테이블 데이터를 다루는데 유용한 concat, join, merge, groupby, pivot_table 사용법을 배우며 시계열 데이터 처리와 walk forward 예측 개념을 소개합니다.

55,000

로드맵에 포함된 강의 썸네일
실전 데이터 사이언스 Part 3. 머신러닝의 이해
기업의 디지털 전환(DT), 인공지능(AI) 도입은 머신러닝 모델 구축에서 시작합니다. 머신러닝은 데이터를 보고 학습하여 점차 성능이 개선되는 소프트웨어를 의미합니다.

이 강의에서는 머신러닝 모델을 구현하는 기본적이며 공통적인 방법을 선형 모델을 사용하여 배웁니다. 

먼저 회귀 모델의 구현, 학습, 검증 방법 그리고 모델 성능 평가 척도인 R-squared, MAE, RMSE 등을 배웁니다. 

다음에는 분류 모델 구현 방법과 결정 경계, 컨퓨전 매트릭스, 정확도, 정밀도(precision), 리콜(recall), f-1 점수의 개념을 배웁니다. 분류 모델의 종합적인 성능 평가를 위해서는 예측 순위(랭킹)를 평가해야 하는데 이를 위해서 ROC-AUC, precision-recall curve를 설명하고 precision-recall 커브를 이용하여 최적의 결정 경계값(threshold)을 찾는 방법을 자세히 다룹니다.

통계 분석과 머신러닝의 차이를 소개합니다. 

66,000

30% 할인

3개 남음전체 구매 적용
쿠폰 받기

로드맵 코스 3