오랜 개발 경험을 가지고 있는 Senior Developer 입니다. 현대건설 전산실, 삼성 SDS, 전자상거래업체 엑스메트릭스, 씨티은행 전산부를 거치며 30 년 이상 IT 분야에서 쌓아온 지식과 경험을 나누고 싶습니다. 현재는 인공지능과 파이썬 관련 강의를 하고 있습니다.
홈페이지 주소:
講義
受講レビュー
- 人工知能活用推薦システム
- 自然言語処理 (NLP) を活用したディープラーニングのコース (基礎から ChatGPT/生成モデルまで)
投稿
Q&A
Transformer 번역기 분석 - Part1 따라치기 질문
model_path = "/content/ted_hrlr_translate_pt_en_converter_extracted/ted_hrlr_translate_pt_en_converter"# 저장된 모델 로드tokenizers = tf.saved_model.load(model_path)이렇게 수정하시면 됩니다. 최근에 압축 풀리는 폴더명이 바뀐 것 같습니다. 교재에도 수정하여 곧 올리겠습니다. 감사합니다.
- 0
- 2
- 18
Q&A
그림에 대해서 잘 이해가 안됩니다.
네, 맞습니다. 그 차이는 결국 Policy Evaluation → Policy Improvement를 반복하면서 수렴 과정에 있는 중간 단계 차이입니다.9분 52초: 아직 θ(수렴 오차 허용치) 기준으로 충분히 반복되지 않은 상태라, greedy update를 했을 때 “blue statement를 거쳐가는 경로”가 더 좋아 보이는 중간 정책이 나옵니다. 이때는 아직 최적 정책이 아닙니다.14분 6초: 더 많은 iteration을 거쳐 value function이 안정되면서, 실제로는 “blue statement를 돌아가는 경로”가 더 높은 value를 가지는 것이 드러납니다. 그래서 최종 optimal policy에서는 돌아가는 것이 선택됩니다.즉, θ의 크기와 반복 횟수 때문에 중간 단계에서는 경로가 달라 보일 수 있지만, iteration을 충분히 돌리면 결국 동일한 optimal policy에 수렴하게 됩니다.
- 0
- 1
- 16
Q&A
stochastic state 관련
네, stochastic하게 state가 정해질 때는 각 state로 갈 확률을 반드시 고려해서 기대값 형태로 value function을 계산합니다. 따라서 질문 주신 것처럼 단순히 reward만 보는 것이 아니라, 각 전이 확률을 고려해야 올바른 value function이 됩니다. “reward × 확률”이 바로 기대값 계산 과정의 일부입니다.좋은 질문 감사합니다.
- 0
- 2
- 21
Q&A
reward, value functnio
목표 자체는 누적 reward (기대 Return, G)의 최대화입니다. 단순히 다음 단계의 reward(보상)을 최대화 하는 것이 아니라 episode 종료될 때까지의 return (이득)을 최대화 하는 것입니다. 진도를 어디까지 나가셨는지 모르겠는데 아직 return(G) 를 안배우셨다면 곧 설명이 나올 것이므로 계속 학습하시면 됩니다. value function은 reward 최대화를 효율적으로 추구하기 위해 사용하는 중간 도구입니다. 즉 현재의 상태보다 더 나은 다음 상태가 어디인지 찾아가기 위한 도구로 사용됩니다. 강화학습의 목적은 Expected Return을 최대화 하는 것 입니다. 조금 더 진도를 나아가시면 명확히 아시게 됩니다. 좋음 질문 감사합니다.
- 0
- 2
- 20
Q&A
전이확률 / stochastic env.
아닙니다. stochastic env.에서 선택한 action 자체는 그대로 실행됩니다.다만 그 결과(다음 상태·보상)가 확률적으로 달라지며, 이것이 transition probability입니다.좋은 질문 감사합니다.
- 0
- 1
- 24
Q&A
확률론적 policy 관련
예, 구분된 개념입니다. 다음의 예를 참조하시면 이해가 되실 것입니다.1. Stochastic Policy (확률적 정책) - 에이전트가 상태 s에서 행동 a를 선택할 확률 분포.즉, 에이전트가 어떤 상태에 있을 때, 여러 행동 중 어떤 것을 택할지 확률적으로 결정하는 규칙.예: 상태가 s1일 때 행동 a1을 선택할 확률 = 0.7 행동 a2를 선택할 확률 = 0.32. Transition Probability (전이확률, 환경 모델) - 환경이 상태 s에서 행동 a를 취했을 때, 다음 상태가 s′가 될 확률즉, 에이전트의 행동 이후 환경이 어떻게 변할지를 설명하는 확률.예: 상태가 s1이고 에이전트가 a1을 했을 때 s2로 갈 확률 = 0.8 s3로 갈 확률 = 0.2우리네 인생과 같다고 보면 됩니다. 기분에 따라 버스를 탈지 지하철을 탈지 그때 그때 다르게 행동을 선택하는데(stochastic policy) 시간 맞춰 도착할 확률 (전이확률)이 교통 상황에 따라 매번 바뀌니까요.
- 0
- 1
- 15
Q&A
model based
모델을 안다는 것은 환경의 전이 규칙과 보상 구조를 안다는 뜻이지, 가치함수를 이미 다 알고 있다는 뜻은 아닙니다.가치함수는 그 모델을 바탕으로 계산하거나 추론해서 얻는 것입니다.그래서 planning 단계에서는 모델을 이용해 미래를 시뮬레이션하고, 그 결과로 가치함수를 업데이트해 정책을 개선합니다.좋은 질문 감사합니다.
- 0
- 1
- 18
Q&A
Encoder-Decoder 질문 드립니다.
검정색 화면으로 스크립 캡처해서 올리신 코드를 제가 알아보기 힘들어 디버깅하기 어렵습니다. 작성하신 코드를 COPY/PASTE 해서 올려주시면 디버깅해 드리겠습니다. 감사합니다.
- 0
- 2
- 38
Q&A
time sequential data 관련
LLM 개발시 적용된 강화학습은 앞단이 아니라 뒷단에서 RLHF(Reinforcement Learning with Human Feedback) 같은 방법이 더 인간 친화적 답변을 유도하기 위해 사용되었고 time sequence data의 예시로 language 데이터를 든 것은 LLM 에 대한 강화학습 적용과 직접 관련된 내용은 아닙니다. 다만 데이터 특성을 이해하시기 쉽게 설명한 것 뿐 입니다.좋은 질문 감사합니다.
- 0
- 2
- 21
Q&A
Deep Q-Learning algorithm에 대하여
Deep Q-Learning 에 대해 질문하셨으므로 Target Q 가 DQN 의 Target Network이 아니라 TD-target 을 말씀하시는 것으로 이해하고 답변하겟습니다.Q-learning은 Q 함수 Q(s,a)(상태-행동 가치 함수)를 점진적으로 업데이트해서, 최종적으로는 최적의 Q∗(s,a)에 수렴하도록 하는 알고리즘입니다.현재 Q값 : Q(s,a)target Q (TD target) : r+γmaxa′Q(s′,a′)차이 : target Q − Q(s,a) (→ TD error)즉, 현재 Q를 target Q에 “가깝게” 이동시키는 학습입니다.학습 초기에는 Qθ(s,a) 값이 랜덤합니다. → target Q와 큰 차이가 있음.학습을 반복하면서, 신경망 파라미터 θ가 업데이트되어 target Q와 점점 가까워집니다.결국 충분히 학습하면, Bellman 방정식이 만족됩니다: 즉, 최적의 Q 함수 Q∗에서는 현재 Q와 target Q가 같아지게 됩니다.행동 선택은 Q 값이 가장 큰 행동을 고르는 방식(ε-greedy)입니다.학습 초기: target Q와 Q가 차이 → 행동 선택이 불안정.학습 후: target Q와 Q가 같아짐 → 행동 선택이 안정.즉, target과 Q가 같아진다는 건 Q 함수가 최적값으로 수렴했고, 따라서 정책(행동 선택)도 최적 정책으로 수렴한다는 뜻입니다.학습은 “내 추정치(Q)”를 “정답(target Q)” 쪽으로 계속 이동시키는 과정.충분히 학습하면 둘이 같아져서 더 이상 업데이트할 필요가 없어집니다.정리하면:Q-learning은 Bellman 최적 방정식을 만족하는 Q∗를 찾는 과정입니다. 학습이 수렴하면, target Q와 Q가 같아지고, 따라서 행동도 안정적으로 최적 행동으로 결정됩니다.알고리즘은 벨만 방정식을 이용해서 이 값을 수렴시키는 알고리즘이고 그 디테일한 내용은 논문에서 수학적으로 증명되어 있으므로 우리가 할 일은 수렴된다는 사실을 인정하고 코딩을 통해서 알고리즘을 구현하기만 하면 됩니다. 좋은 질문 감사합니다.
- 0
- 2
- 35