멀티코어님의 소개

멀티코어는 프로그래머이자 인공지능 전문가입니다. 프로그래머로서 다양한 분야에서 활동했으며 현재는 기업에서 데이터분석과 강화학습을 활용한 비즈니스 환경 개선 업무를 담당하고 있습니다. 인공지능이 학위를 받은 소수의 전문가만을 위한 영역이 아니라 프로그래머도 충분히 도전할 수 있음을 후배들에게 보여주기 위해 부단히 노력하고 있습니다. "프로그래머를 위한 강화학습"을 집필했습니다.

집필 및 자격사항

개발자 답게 코드로 익히는 강화학습 (2025) / 프리렉
딥페이크 모델 분석을 통한 딥페이크 이미지 분류 개선에 대한 고찰 (2024) / 한국융합보안학회
비트코인 선물 자동매매시스템 집필 (2022) / 프리렉
프로그래머를 위한 강화학습 집필 (2021) / 프리렉
멀티플 DOM 트리를 활용한 브라우저 퍼징기법 연구(2017) / 연세대학교
정보시스템 수석감리원 자격증 취득(2015) / 정보시스템감리협회
컴퓨터시스템응용기술사 (2013) / 한국산업인력공단

기업 및 개인 강의 문의 : multicore.it@gmail.com

안녕하세요! 여러분의 강화학습 여정을 더욱 쉽고 명확하게 안내해 드릴 강화학습 멘토링 프로그램의 커리큘럼을 소개합니다. 복잡한 이론 대신 직관적인 설명과 풍부한 실습으로 구성된 이 프로그램을 통해, 강화학습을 여러분의 강력한 실전 무기로 만들어 보세요!

본 강의는 "강화학습 올인원: 기초, 최신 알고리즘, 실무 활용" 강의 중심으로 구성되었습니다.

*880,000만원으로 10명까지 수강가능합니다. 그룹으로 수강하는 것을 추천드립니다. 4시간 선택 시 다음 두 가지 커리큘럼 중 선택(기초/마스터)이 가능하며, 8시간 강의는 4시간 강의를 2번 신청하셔야 합니다.

*강의 장소와 시간은 협의 가능합니다.(오프라인 중심)

*문의사항 : multicore.it@gmail.com

*강사소개: 멀티코어는 프로그래머이자 인공지능 전문가입니다. 프로그래머로서 다양한 분야에서 활동했으며 현재는 기업에서 데이터분석과 강화학습을 활용한 비즈니스 환경 개선 업무를 담당하고 있습니다. 인공지능이 학위를 받은 소수의 전문가만을 위한 영역이 아니라 프로그래머도 충분히 도전할 수 있음을 후배들에게 보여주기 위해 부단히 노력하고 있습니다. "프로그래머를 위한 강화학습"과 "나만의 투자 전략으로 수익을 내는 비트코인 선물거래 자동매매 시스템"을 집필했습니다.

🚀 4시간 핵심 커리큘럼: 강화학습 첫 걸음

목표: 강화학습의 기본 원리를 이해하고, 핵심 알고리즘 및 딥러닝과의 연계를 통해 실전 AI 구현의 기초를 다집니다.

1교시: 강화학습의 세계로

강화학습 핵심 개념: 에이전트, 환경, 상태, 행동, 보상 소개.
지도/비지도 학습과의 차이점.
강화학습의 수학적 기반: 마르코프 결정 과정(MDP)의 구성요소 (상태, 행동, 보상, 전이 확률, 감가율, 정책) 이해.

2교시: 가치와 학습의 기초

가치 함수: 상태 가치 함수(V-함수) 및 행동 가치 함수(Q-함수) 개념.
벨만 방정식의 역할 (개념 위주).
강화학습 학습 방법론: 몬테카를로(MC)와 시간차 학습(TD) 비교.
Q-러닝 개념: TD 기반의 모델 프리 알고리즘.

3교시: 딥러닝과 강화학습의 만남

함수 근사법의 필요성: 복잡한 환경 해결을 위한 신경망 활용.
DQN(Deep Q-Network) 알고리즘: Q-러닝과 딥러닝의 결합.
DQN 핵심 아이디어: 경험 재현(Experience Replay)과 목표 네트워크 개념.
탐험(Exploration)과 탐욕(Exploitation)의 균형 (입실론-탐욕 정책).

4교시: 실전 적용의 첫걸음

카트폴(CartPole) 환경 실습: DQN을 활용한 카트폴 에이전트 학습 과정 살펴보기.
학습 결과 해석 (이동 평균, 보상 등).
질의응답 및 다음 단계 안내.
준비물: 노트북, 기본적인 Python 프로그래밍 지식 및 개발 환경 (Python, TensorFlow, Jupyter Notebook) 설치 안내.

🌟 8시간 심화 커리큘럼: 실전 강화학습 마스터 과정

목표: 고급 강화학습 알고리즘을 이해하고, 신경망 튜닝 및 베이지안 최적화를 활용하여 실제 금융 데이터에 적용하는 능력을 기릅니다.

1-3교시: 4시간 핵심 커리큘럼 내용 복습 및 심화

DQN 알고리즘 심층 분석: 리플레이 메모리 동작 원리, Epsilon-greedy 전략 상세.
함수 근사법의 수학적 배경: 미분, 편미분, 경사하강법 개념 (직관적 이해).

4교시: 정책 기반 강화학습의 시작

정책 기반 강화학습 개요: 가치 기반과의 차이점.
정책 그래디언트(Policy Gradient) 개념: 경사 상승법.
REINFORCE 알고리즘의 개념 및 한계점.

5교시: 안정적인 정책 학습: A2C와 PPO

Actor-Critic (A2C) 알고리즘: 정책 신경망(Actor)과 가치 신경망(Critic)의 협력, 어드벤티지 함수.
PPO(Proximal Policy Optimization) 알고리즘: 중요도 샘플링(Importance Sampling) 및 클리핑(Clipping) 기법.
GAE(Generalized Advantage Estimation) 개념과 PPO에서의 활용.

6교시: 인공신경망 튜닝 마스터

입력 데이터 전처리: 표준화와 정규화.
활성화 함수 선택: ReLU, Leaky ReLU, ELU, Swish 등.
가중치 초기화: Glorot, He 초기화.
최적화 알고리즘: Adam 및 학습률 조정.
노드 수 및 레이어 수 결정 가이드.

7교시: 최적의 하이퍼파라미터를 찾아서: 베이지안 최적화

하이퍼파라미터 튜닝의 어려움.
베이지안 최적화(Bayesian Optimization)의 이해: 빈도주의/베이지안 확률, 사전/사후 확률.
Optuna 실습: Optuna를 활용한 하이퍼파라미터 자동 튜닝 방법.

8교시: 실전 강화학습 프로젝트 맛보기

자산 배분 전략: yfinance를 활용한 실제 주식 데이터 수집, 환경 및 보상 함수 설계 (로그 수익률, 최대 낙폭, 샤프 비율, 거래비용).
지점 순환 근무 모델링: 강화학습 기반 최적화 문제 정의 및 환경 설계.
Stable-Baselines3 (SB3) 활용: 강화학습 라이브러리 SB3의 장점 및 핵심 기능.
텐서보드(TensorBoard)를 활용한 학습 시각화.
총정리 및 Q&A: 개별 프로젝트 아이디어 멘토링.
준비물: 기본적인 Python 프로그래밍 지식 및 개발 환경 (Python, TensorFlow, Jupyter Notebook) 설치. 추가로 yfinance, Optuna, Stable-Baselines3 등 관련 라이브러리 설치 안내.

이 멘토링 프로그램은 강화학습을 막연한 개념이 아닌, 여러분의 실전 무기로 만들어 드릴 것입니다! 지금 바로 시작하세요!