인공지능 딥러닝 · 머신러닝

강화학습 입문에서 Deep Q-learning까지 대시보드

(4.8) 4개의 수강평 ∙ 114명의 수강생

YoungJea Oh

딥러닝 강화학습 Python PyTorch

88,000원

월 17,600원

5개월 할부 시

지식공유자: YoungJea Oh

총 74개 수업 (16시간 52분)

수강기한:

수료증: 발급

난이도: --

지식공유자 답변이 제공되는 강의입니다

폴더에 추가 32

중급자를 위해 준비한
[딥러닝 · 머신러닝] 강의입니다.

최근 인공지능 분야의 놀라운 성과는 모두 강화 학습 분야에서 발표되고 있습니다. 로봇, 자율 주행 기술, 인간을 닮은 기계 등 진정한 인공 지능 기술의 혁신을 이루어 내고 있는 강화 학습 기술을 초보자의 시선으로 알기 쉽게 기초에서 고급 수준까지 다루었습니다.

✍️
이런 걸
배워요!

강화학습의 역사와 중요한 기술 변천 과정

전통적 강화학습 이론

강화학습 모델 구현 실무적 기술 능력

딥러닝을 응용한 현대적 강화학습 이론

파이토치 기초

들어올 땐 초보자, 나갈 땐 실무자!
강화학습의 A to Z를 강의 하나로 🤩

강화학습,
초심자의 눈높이에 맞게 학습해요! 📖

강화학습은 일반적으로 우리가 알고 있는 딥러닝/머신러닝처럼 데이터 중심이 아니라, 시행착오 중심으로 발달해 온 인공지능 학습 방법입니다. 최근 딥러닝의 발달에 따라 딥러닝과 강화학습이 만나게 되었고, 그 이후 다양한 강화학습이 실제 문제를 해결하는 데 적용되었습니다. 현재는 많은 성공사례를 가진 중요한 인공지능, 알고리즘의 한 분야로 자리 잡게 되었어요.

본 강의는 파이토치를 딥러닝 도구를 사용하여, 강화학습의 기초부터 고급 지식까지 다룬 강의입니다. 어려운 수학을 사용하지 않고 쉽게 설명하려 노력했으며, 실무에 적용할 수 있도록 실습 중심으로 강의를 진행합니다.

실제 오프라인 강의로 진행 중인 검증된 커리큘럼

현장 수강생의 피드백으로 완성도를 높인 강의 자료

실습 중심의 실용적인 강의

수강 타겟/강의 목적 🙆‍♀️

강화학습에 관심 있는 분

강화 학습을 업무에 적용하려는 개발자

인공지능 지식의 폭을 넓히고 싶은 분

이런 걸 배워요 📚

1. 강화 학습의 역사

2. Dynamic Programming

3. Monte Carlo Method

4. Temporal Difference Method (시간차 학습)

5. Deep Q-learning

강의는 실습과 함께! 🔥

수강 전 참고 사항 📢

실습 환경

Windows, Mac, Linux 모두 무방합니다.
사용 도구: VSCODE, Jupyter Notebook, Colab
PC 사양: 일반적 사양

학습 자료

제공하는 학습 자료 형식 (PPT, 클라우드 링크, 텍스트, 소스 코드, 애셋, 프로그램, 예제 문제 등)
분량 및 용량, 기타 학습 자료에 대한 특징

잠깐! ✋ 강의 수강을 위해선 파이썬 기초 지식이 필요해요.

유형별로 함께 들으면 좋은 강의를 추천합니다.

Type 1 파이썬 기초 실력이 부족하지만, 시간이 없어 속성 Crash 코스가 필요하신 분

Type 2 머신러닝/딥러닝에 대한 사전 지식을 차근차근 익히고 싶은 분

Type 3 파이썬 언어를 제대로 확실히 익히고 싶으신 분

예상 질문 Q&A 💬

Q. 어떤 프로그램 언어를 사용하나요?

파이썬 언어를 이용하여 알고리즘을 구현합니다.

Q. 딥러닝 사전 지식이 필요한가요?

그렇습니다. 선수 과정 안내를 참고 바랍니다.

Q. 딥러닝 프레임워크는 어떤 것을 사용하나요?

파이토치를 이용하여 딥러닝 네트웍을 구현하고 있습니다. 파이토치 crash 코스가 강의에 포함되어 있으므로 파이토치 사용법을 몰라도 무방합니다.

지식공유자 소개 ✒️

파이썬과 인공지능을 5년간 강의하고 있는 인공 지능 전문 강사입니다.

인프런에 다음과 같은 강의가 올라가 있습니다.

🎓
학습 대상은
누구일까요?

파이썬 코딩이 가능한 분

기본적 딥러닝 지식이 있는 분

강화학습의 원리를 알고 싶은 분

📚
선수 지식,
필요할까요?

파이썬 언어

딥러닝 기초 지식

오랜 개발 경험을 가지고 있는 Senior Developer 입니다. 현대건설 전산실, 삼성 SDS, 전자상거래업체 엑스메트릭스, 씨티은행 전산부를 거치며 30 년 이상 IT 분야에서 쌓아온 지식과 경험을 나누고 싶습니다. 현재는 인공지능과 파이썬 관련 강의를 하고 있습니다.

홈페이지 주소:

https://ironmanciti.github.io/

이 강의는 영상, 수업 노트, 첨부 파일이 제공됩니다. 미리보기를 통해 콘텐츠를 확인해보세요.

섹션 0. 교육 환경 준비 7 강 ∙ 22분

선수 과목 안내 미리보기 강의 소개 미리보기 01:24

강의 자료 (강의 교재, 소스 코드)

Anaconda 설치 02:31

Pytorch 설치 미리보기 02:34

VSCODE 설치

Jupyter Notebook 과 Google Colab 사용법(OPTIONAL) 15:57

섹션 1. 강화 학습 Overview 9 강 ∙ 1시간 44분

강화 학습의 역사 - part 1 미리보기 12:22

강화 학습의 역사 - part 2 12:16

강화 학습의 구성 요소 - 개요 미리보기 09:45

강화 학습의 구성 요소 - Policy (정책) 10:16

강화 학습의 구성 요소 - Value Function (가치 함수) 10:25

강화 학습의 구성 요소 - 환경과 모델 (Environment & Model) 06:11

강화 학습 Task의 종류 10:37

강화 학습 문제 해결 접근 방식과 Gymnasium 소개 및 설치 14:46

실습 - Cartpole 환경 이해 및 시각화 18:14

섹션 2. MDP (Markov Decision Process) 2 강 ∙ 25분

마르코프 특성 과 유한 MDP (Finite MDP) 10:44

MDP의 Dynamics (동역학) 15:10

섹션 3. 정책과 가치 함수 (Policy & Value Function) 13 강 ∙ 2시간 20분

결정론적 vs. 확률론적 정책 (Deterministic vs. Stochastic Policy) 미리보기 07:27

결정론적 vs. 확률론적 환경(Deterministic vs. Stochastic Environment) 10:10

실습 - Frozen Lake - Policy 함수를 이용한 길 찾기 23:20

가치 함수 (Value Function)와 Reward (보상) 11:29

보상 (Reward)과 이득 (Return) 계산 15:00

할인 (Discounting) 과 가치 함수 (Value Function) 04:58

상태 가치 함수 (State Value Function) 와 행동 가치 함수 (Action Value Function) 07:59

가치 함수 적용 사례 12:54

벨만 방정식 (Bellman Equation) 10:09

최적 정책 (Optimal Policy) 09:28

최적 정책 예제 (Simple Grid World) 09:30

복잡한 예제와 최적 정책 결정 방법 09:30

최적 정책을 구하는 3가지 방법과 강화 학습 알고리즘 종류 08:23

섹션 4. 동적 계획법 (Dynamic Programming) 9 강 ∙ 2시간 23분

반복 정책 평가 (Iterative Policy Evalution) 11:52

반복 정책 평가 (Iterative Policy Evalution) 작동 원리 이해 15:07

반복 정책 평가 알고리즘 이해 및 실습 문제 설명 미리보기 16:29

실습 - 얼어붙은 호수(Frozen Lake) - 반복 정책 평가 알고리즘 구현 16:40

정책 반복 (Policy Iteration) 17:27

실습 - 얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 32:43

GPI(Generalized Policy Iteration)와 가치 반복 (Value Iteration) 09:42

실습 - 얼어붙은 호수(Frozen Lake) - 가치 반복 알고리즘 구현 미리보기 18:36

동적 계획법 (Dynamic Programming) 요약 04:59

섹션 5. 몬테카를로 방법 (Monte Carlo Method) 12 강 ∙ 2시간 46분

모델 프리 방법(Model-Free Methods) 08:41

몬테카를로 방법 (Monte-Carlo Method)과 최초 접촉 (First Visit) 정책 평가 알고리즘 14:32

블랙잭 게임(Blackjack Game) 설명 06:04

블랙잭 게임(Blackjack Game)문제 정의 13:16

최초 접촉 (First Visit) MC 방법에 의한 정책 평가 알고리즘 미리보기 03:46

최초 접촉 (First Visit) MC 방법의 블랙잭 게임 구현 문제 설명 08:34

실습 - 최초 접촉 (First Visit) MC 방법의 블랙잭 게임 구현 part 1 21:30

실습 - 최초 접촉 (First Visit) MC 방법의 블랙잭 게임 구현 part 2 25:22

MC 방법의 장점 및 GPI (Generalized Policy Interation) 13:46

탐색과 활용 (Exploration vs. Exploitation) 이해 및 e-soft 정책 알고리즘 설명 10:24

실습 - 최초 접촉 (First Visit) MC control (e-soft) 블랙잭 게임 문제 설명 및 구현 part 1 19:09

실습 - 최초 접촉 (First Visit) MC control (e-soft) 블랙잭 게임 구현 part 2 21:26

섹션 6. 시간차 학습 (Temporal Difference Learning) 8 강 ∙ 2시간 31분

시간차 학습 (TD Learning) 이론 17:44

시간차 학습과 몬테카를로 방법 비교 미리보기 10:30

On-Policy 와 Off-Policy 학습 차이점 07:08

Q-learning 알고리즘 11:13

Frozen Lake 환경을 이용한 Q-learning 이해 09:41

실습 - Frozen Lake 환경을 이용한 Q-learning 구현 27:24

실습 - Taxi 환경 설명 및 Q-learning 구현 26:20

실습 - 절벽 걷기 (Cliff Walking) 환경에서 Q-learning 과 Sarsa 알고리즘 비교 41:53

섹션 7. Deep Q-learning 을 이용한 예측 및 갱신 14 강 ∙ 4시간 17분

함수 근사 (Function Approximation) 11:45

함수 근사의 Observation Space 정의 - state 표현 방법 14:20

Deep Q-learning 이해 09:06

Q-learning 과 Deep Q-learning 비교 09:17

Experience Replay (Replay Memory) 13:13

Deep Q-learning 알고리즘 (2013, DeepMind) 02:33

Pytorch Basic(OPTIONAL) - part 1 13:00

Pytorch Basic(OPTIONAL) - part 2 11:21

실습 - Pytorch Basic(OPTIONAL) - part 1 42:11

실습 - Pytorch Basic(OPTIONAL) - part 2 47:04

Deep Q-learning 구현 설명 16:09

DNQ 알고리즘 (2015, DeepMind) 설명 및 구현 환경 설명 13:19

실습 - Mountain Car DQN 알고리즘 구현 - part1 28:34

실습 - Mountain Car DQN 알고리즘 구현 - part2 25:24

강의 게시일 : 2023년 07월 27일 (마지막 업데이트일 : 2024년 02월 08일)

수강생분들이 직접 작성하신 수강평입니다.

4.8

4개의 수강평

5점

4점

3점

2점

1점

VIEW 추천 순 최신 순 높은 평점 순 낮은 평점 순 평점 순 높은 평점 순 낮은 평점 순

강의가 좋아요

2023-11-29

재미잇어요ㅕ

2024-01-05

강화학습의 기초를 배우는데 좋은 강의입니다. 강사님이 강화학습 전반에 대해 이해하기 쉽게 설명해서 많은 도움이 되었습니다.

2023-11-07

너무 좋아요

2024-01-04