강의

멘토링

커뮤니티

profile image

멀티코어

@multicoreit

Lead 레벨·

데이터 사이언티스트

multicore.it

멘토링

수강생

865

수강평

52

강의 평점

4.7

멘토링 신청

-

멘토링 리뷰

-

멘토링 평점

-

멀티코어는 프로그래머이자 인공지능 전문가입니다. 프로그래머로서 다양한 분야에서 활동했으며 현재는 기업에서 데이터분석과 강화학습을 활용한 비즈니스 환경 개선 업무를 담당하고 있습니다. 인공지능이 학위를 받은 소수의 전문가만을 위한 영역이 아니라 프로그래머도 충분히 도전할 수 있음을 후배들에게 보여주기 위해 부단히 노력하고 있습니다. "프로그래머를 위한 강화학습"을 집필했습니다.

 

  • 집필 및 자격사항

  1. 개발자 답게 코드로 익히는 강화학습 (2025) / 프리렉

  2. 딥페이크 모델 분석을 통한 딥페이크 이미지 분류 개선에 대한 고찰 (2024) / 한국융합보안학회

  3. 비트코인 선물 자동매매시스템 집필 (2022) / 프리렉

  4. 프로그래머를 위한 강화학습 집필 (2021) / 프리렉

  5. 멀티플 DOM 트리를 활용한 브라우저 퍼징기법 연구(2017) / 연세대학교

     

  6. 정보시스템 수석감리원 자격증 취득(2015) / 정보시스템감리협회

     

  7. 컴퓨터시스템응용기술사 (2013) / 한국산업인력공단

  • 기업 및 개인 강의 문의 : multicore.it@gmail.com

안녕하세요! 여러분의 강화학습 여정을 더욱 쉽고 명확하게 안내해 드릴 강화학습 멘토링 프로그램의 커리큘럼을 소개합니다. 복잡한 이론 대신 직관적인 설명과 풍부한 실습으로 구성된 이 프로그램을 통해, 강화학습을 여러분의 강력한 실전 무기로 만들어 보세요!

본 강의는 "강화학습 올인원: 기초, 최신 알고리즘, 실무 활용" 강의 중심으로 구성되었습니다.

*880,000만원으로 10명까지 수강가능합니다. 그룹으로 수강하는 것을 추천드립니다. 4시간 선택 시 다음 두 가지 커리큘럼 중 선택(기초/마스터)이 가능하며, 8시간 강의는 4시간 강의를 2번 신청하셔야 합니다.

*강의 장소와 시간은 협의 가능합니다.(오프라인 중심)

*문의사항 : multicore.it@gmail.com

*강사소개: 멀티코어는 프로그래머이자 인공지능 전문가입니다. 프로그래머로서 다양한 분야에서 활동했으며 현재는 기업에서 데이터분석과 강화학습을 활용한 비즈니스 환경 개선 업무를 담당하고 있습니다. 인공지능이 학위를 받은 소수의 전문가만을 위한 영역이 아니라 프로그래머도 충분히 도전할 수 있음을 후배들에게 보여주기 위해 부단히 노력하고 있습니다. "프로그래머를 위한 강화학습"과 "나만의 투자 전략으로 수익을 내는 비트코인 선물거래 자동매매 시스템"을 집필했습니다.

 


🚀 4시간 핵심 커리큘럼: 강화학습 첫 걸음

목표: 강화학습의 기본 원리를 이해하고, 핵심 알고리즘 및 딥러닝과의 연계를 통해 실전 AI 구현의 기초를 다집니다.

  • 1교시: 강화학습의 세계로
  1. 강화학습 핵심 개념: 에이전트, 환경, 상태, 행동, 보상 소개.
  2. 지도/비지도 학습과의 차이점.
  3. 강화학습의 수학적 기반: 마르코프 결정 과정(MDP)의 구성요소 (상태, 행동, 보상, 전이 확률, 감가율, 정책) 이해.
  • 2교시: 가치와 학습의 기초
  1. 가치 함수: 상태 가치 함수(V-함수) 및 행동 가치 함수(Q-함수) 개념.
  2. 벨만 방정식의 역할 (개념 위주).
  3. 강화학습 학습 방법론: 몬테카를로(MC)와 시간차 학습(TD) 비교.
  4. Q-러닝 개념: TD 기반의 모델 프리 알고리즘.
  • 3교시: 딥러닝과 강화학습의 만남
  1. 함수 근사법의 필요성: 복잡한 환경 해결을 위한 신경망 활용.
  2. DQN(Deep Q-Network) 알고리즘: Q-러닝과 딥러닝의 결합.
  3. DQN 핵심 아이디어: 경험 재현(Experience Replay)과 목표 네트워크 개념.
  4. 탐험(Exploration)과 탐욕(Exploitation)의 균형 (입실론-탐욕 정책).
  • 4교시: 실전 적용의 첫걸음
  1. 카트폴(CartPole) 환경 실습: DQN을 활용한 카트폴 에이전트 학습 과정 살펴보기.
  2. 학습 결과 해석 (이동 평균, 보상 등).
  3. 질의응답 및 다음 단계 안내.
  4. 준비물: 노트북, 기본적인 Python 프로그래밍 지식 및 개발 환경 (Python, TensorFlow, Jupyter Notebook) 설치 안내.

🌟 8시간 심화 커리큘럼: 실전 강화학습 마스터 과정

목표: 고급 강화학습 알고리즘을 이해하고, 신경망 튜닝 및 베이지안 최적화를 활용하여 실제 금융 데이터에 적용하는 능력을 기릅니다.

  • 1-3교시: 4시간 핵심 커리큘럼 내용 복습 및 심화
  1. DQN 알고리즘 심층 분석: 리플레이 메모리 동작 원리, Epsilon-greedy 전략 상세.
  2. 함수 근사법의 수학적 배경: 미분, 편미분, 경사하강법 개념 (직관적 이해).
  • 4교시: 정책 기반 강화학습의 시작
  1. 정책 기반 강화학습 개요: 가치 기반과의 차이점.
  2. 정책 그래디언트(Policy Gradient) 개념: 경사 상승법.
  3. REINFORCE 알고리즘의 개념 및 한계점.
  • 5교시: 안정적인 정책 학습: A2C와 PPO
  1. Actor-Critic (A2C) 알고리즘: 정책 신경망(Actor)과 가치 신경망(Critic)의 협력, 어드벤티지 함수.
  2. PPO(Proximal Policy Optimization) 알고리즘: 중요도 샘플링(Importance Sampling) 및 클리핑(Clipping) 기법.
  3. GAE(Generalized Advantage Estimation) 개념과 PPO에서의 활용.
  • 6교시: 인공신경망 튜닝 마스터
  1. 입력 데이터 전처리: 표준화와 정규화.
  2. 활성화 함수 선택: ReLU, Leaky ReLU, ELU, Swish 등.
  3. 가중치 초기화: Glorot, He 초기화.
  4. 최적화 알고리즘: Adam 및 학습률 조정.
  5. 노드 수 및 레이어 수 결정 가이드.
  • 7교시: 최적의 하이퍼파라미터를 찾아서: 베이지안 최적화
  1. 하이퍼파라미터 튜닝의 어려움.
  2. 베이지안 최적화(Bayesian Optimization)의 이해: 빈도주의/베이지안 확률, 사전/사후 확률.
  3. Optuna 실습: Optuna를 활용한 하이퍼파라미터 자동 튜닝 방법.
  • 8교시: 실전 강화학습 프로젝트 맛보기
  1. 자산 배분 전략: yfinance를 활용한 실제 주식 데이터 수집, 환경 및 보상 함수 설계 (로그 수익률, 최대 낙폭, 샤프 비율, 거래비용).
  2. 지점 순환 근무 모델링: 강화학습 기반 최적화 문제 정의 및 환경 설계.
  3. Stable-Baselines3 (SB3) 활용: 강화학습 라이브러리 SB3의 장점 및 핵심 기능.
  4. 텐서보드(TensorBoard)를 활용한 학습 시각화.
  5. 총정리 및 Q&A: 개별 프로젝트 아이디어 멘토링.
  6. 준비물: 기본적인 Python 프로그래밍 지식 및 개발 환경 (Python, TensorFlow, Jupyter Notebook) 설치. 추가로 yfinance, Optuna, Stable-Baselines3 등 관련 라이브러리 설치 안내.

이 멘토링 프로그램은 강화학습을 막연한 개념이 아닌, 여러분의 실전 무기로 만들어 드릴 것입니다! 지금 바로 시작하세요!

강의

수강평

게시글