ChatGPT RLHF 관련 질문드립니다!
317
13 asked
안녕하세요. NLP 강의 들었었는데 쉽고 정확하게 강의해주셔서 이번에 새로나온 강의도 신청하게 되었습니다! ㅎㅎ
질문 드립니다.
1) RLHF에서 1단계는 GPT-3가 특정 질문에 대해 아무말 대잔치하며 생성했을 때, 인간이 선호하는 방식은 바로 이거야 라고 알려주어 아무말 대잔치를 못하도록 모델이 학습되는 과정(=SFT) 이라고 이해가 되는데 맞나요?
2) 2단계는 1단계에서 생성한 여러 답변들에 인간이 랭킹을 매긴다는 것을 이해했습니다. 인간이 매긴 랭킹들에 대한 데이터 셋을 RM(Reward Model)이 학습한다는건,
예를들어 RM의 input은 1단계에서 GPT가 생성한 문장셋, output은 각 문장셋들에 대한 인간이 매긴 각 랭킹을 맞추도록 학습하는 과정이 맞나요?
3) 3단계는 "1단계에서 Fine-Tuned된 모델을 이제는 인간이 보상해주는 대신 2단계에서 생성한 RM이 인간역할을 하며 지도해준다" 라고 이해해도 될까요?
좋은 강의 다시 한번 감사합니다 :)
Answer 1
1
1) RLHF에서 1단계는 GPT-3가 특정 질문에 대해 아무말 대잔치하며 생성했을 때, 인간이 선호하는 방식은 바로 이거야 라고 알려주어 아무말 대잔치를 못하도록 모델이 학습되는 과정(=SFT) 이라고 이해가 되는데 맞나요?
--> 네, 맞습니다. GPT-3와 같은 대형 언어 모델은 일반적인 언어 생성 모델이므로, 특정 응답이 부적절하거나 비합리적일 수 있습니다. 이를 개선하기 위해, SFT 단계에서는 모델이 인간이 선호하는 방식으로 응답하도록 학습합니다. 이 단계는 다음과 같이 진행됩니다:
데이터 준비: 인간 평가자가 작성하거나 선정한 고품질 질문-응답 쌍 데이터를 수집합니다.
지도 학습: 모델은 이 고품질 데이터를 사용하여 추가 학습을 합니다. 즉, 인간이 선호하는 방식으로 응답하도록 모델을 지도(supervised)합니다.
2) 2단계는 1단계에서 생성한 여러 답변들에 인간이 랭킹을 매긴다는 것을 이해했습니다. 인간이 매긴 랭킹들에 대한 데이터 셋을 RM(Reward Model)이 학습한다는건,
예를들어 RM의 input은 1단계에서 GPT가 생성한 문장셋, output은 각 문장셋들에 대한 인간이 매긴 각 랭킹을 맞추도록 학습하는 과정이 맞나요?
--> 네, 맞습니다. 2단계에서 보상 모델(Reward Model, RM)은 인간이 매긴 랭킹 데이터를 사용하여 학습합니다. 이 과정은 다음과 같이 이루어집니다:
데이터 수집:
1단계에서 생성된 여러 응답을 수집합니다.
인간 평가자들은 이러한 응답들에 대해 랭킹을 매깁니다.
보상 모델 학습:
보상 모델은 입력으로 주어진 응답 세트와 그에 대한 인간 평가자의 랭킹 데이터를 사용하여 학습합니다.
보상 모델의 목표는 주어진 응답 세트에 대해 인간 평가자가 매긴 랭킹을 예측하는 것입니다.
3) 3단계는 "1단계에서 Fine-Tuned된 모델을 이제는 인간이 보상해주는 대신 2단계에서 생성한 RM이 인간역할을 하며 지도해준다" 라고 이해해도 될까요?
--> 네, 맞습니다. 3단계는 강화 학습(Reinforcement Learning, RL) 단계로, 1단계에서 Fine-Tuning된 모델을 더 개선하기 위해 2단계에서 학습된 보상 모델(Reward Model)을 사용하여 학습하는 단계입니다. 이를 통해 모델이 더 나은 응답을 생성하도록 합니다.
좋은 질문 감사합니다.
영문 계정
0
2
1
기출 11회 작업형 2_전체 데이터 학습 여부
0
15
1
RateLimitError
0
10
2
예측값 결과 소수점 차이
0
21
2
여태까지 발견한 이슈들 공유드립니다.
1
18
1
기출 문제와 실전챌린지 연습문제 무엇부터 푸는게 나은가요?
0
15
0
전처리 train() test([ ])
0
16
2
작업형 1 배경지식 질문
0
19
2
옳게 풀은건지 질문드립니다!
0
14
1
roc_auc_score
0
23
2
재귀함수 연산법
0
13
2
추가질문 합니다
0
17
2
시험환경 구름
0
18
2
2유형 질문드려요
0
17
2
RandomForest vs lgb
0
24
2
전처리 관련질문
0
25
3
수강기간즘연장해주세요
0
13
1
작업형3 기출
0
18
2
유형2에서 데이터분할 생략 가능여부
0
30
2
9회 기출 유형3 질문
0
21
2
lgb 기초편
0
14
1
수업자료 문의
0
18
2
쥬피터노트북 통한 python3 연결실패
0
98
2
클립모델 실습 중 에러 발생 관련 문의드립니다.
0
180
2

