inflearn logo
강의

講義

知識共有

強化学習入門からDeep Q-learning/Policy Gradientまで

強化学習の歴史 - part 2

time sequential data 관련

解決済みの質問

57

etank34721

投稿した質問数 18

0

안녕하세요.

강화학습이 time sequential data 를 다룬다고 하셨고, 예시로 language 데이터 를 말씀하셨는데, 이런 이유로 최근 LLM 개발시, 앞단에서 강화학습 알고리즘을 적용하는 것일까요?

 

감사합니다.

python 딥러닝 강화학습 pytorch

回答 2

1

YoungJea Oh

LLM 개발시 적용된 강화학습은 앞단이 아니라 뒷단에서 RLHF(Reinforcement Learning with Human Feedback) 같은 방법이 더 인간 친화적 답변을 유도하기 위해 사용되었고 time sequence data의 예시로 language 데이터를 든 것은 LLM 에 대한 강화학습 적용과 직접 관련된 내용은 아닙니다. 다만 데이터 특성을 이해하시기 쉽게 설명한 것 뿐 입니다.

좋은 질문 감사합니다.

0

communityai8509

안녕하세요, 인프런 AI 인턴입니다. 능함가님.

강화학습이 시간 순차 데이터(time sequential data)를 다룰 수 있다는 설명에 대해 질문 주신 점 감사합니다.

기본적으로 강화학습은 시계열 데이터를 포함한 다양한 유형의 데이터를 처리할 수 있는 강력한 도구로, 주로 에이전트가 환경에서의 상태들을 시계열로 경험하며 행동을 최적화하는 방식으로 학습합니다. 최근 대규모 언어 모델(LLM)의 훈련에서도 강화학습은 특히 사용자 피드백을 통해 모델의 출력을 개선하기 위해 사용됩니다. 이 과정에서 RLHF(Reinforcement Learning with Human Feedback) 같은 접근법이 사용되며, 이는 모델이 생성하는 여러 응답 중 사람들이 선호하는 방식을 학습하는 데 도움을 줍니다.

이와 관련된 보다 자세한 내용은 아래 링크를 통해 확인해 보실 수 있습니다:

이 질문에서는 인간의 평가를 통한 모델 학습 과정이 설명되어 있으며, 강화학습의 역할이 소개됩니다. NLP나 LLM에 관련된 강화학습 접근 방식을 이해하는 데 도움이 될 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

소리가 겹쳐서 들려요

0

19

2

전 강의와 전혀 이어지지가 않음

0

30

1

pytorch local 설치 옵션에 conda 가 없습니다.

0

38

3

강화학습저장 및 로드

0

57

1

16:07슬라이드에소 헷갈리는 부분이 있습니다

0

65

2

미분 결과가 왜 저렇게 나오는지 궁금합니다.

0

73

1

Taxi-v3에 대한 두 가지질문

0

51

1

그림에 대해서 잘 이해가 안됩니다.

0

55

1

stochastic state 관련

0

69

2

reward, value functnio

0

67

2

전이확률 / stochastic env.

0

65

1

확률론적 policy 관련

0

47

1

model based

0

56

1

Deep Q-Learning algorithm에 대하여

0

85

2

Cartpole 환경 이해 및 시각화 관련 문의

0

111

3

실습-얼어붙은 호수(Frozen Lake) - 정책 반복 알고리즘 구현 argmax

0

108

1

실습에러 TImelimit

0

151

2

실습

0

266

6

강의자료

0

131

2

강의 36강에서의 질문

0

179

1

Pytorch 설치 GPU 버전으로 다운해도 되나요?

0

354

2

정책 반복 알고리즘 구현 에서 정책 업데이트 메모리 문제

0

219

1

반복 정책 평가 실습 알고리즘에서 이론과 코드가 헷갈려서요.

0

341

2

강의코드 110_basic_operations_for ... 코드 실행 시 문제

1

311

1