ChatGPT RLHF 관련 질문드립니다!

안녕하세요. NLP 강의 들었었는데 쉽고 정확하게 강의해주셔서 이번에 새로나온 강의도 신청하게 되었습니다! ㅎㅎ

질문 드립니다.

1) RLHF에서 1단계는 GPT-3가 특정 질문에 대해 아무말 대잔치하며 생성했을 때, 인간이 선호하는 방식은 바로 이거야 라고 알려주어 아무말 대잔치를 못하도록 모델이 학습되는 과정(=SFT) 이라고 이해가 되는데 맞나요?

2) 2단계는 1단계에서 생성한 여러 답변들에 인간이 랭킹을 매긴다는 것을 이해했습니다. 인간이 매긴 랭킹들에 대한 데이터 셋을 RM(Reward Model)이 학습한다는건,

예를들어 RM의 input은 1단계에서 GPT가 생성한 문장셋, output은 각 문장셋들에 대한 인간이 매긴 각 랭킹을 맞추도록 학습하는 과정이 맞나요?

3) 3단계는 "1단계에서 Fine-Tuned된 모델을 이제는 인간이 보상해주는 대신 2단계에서 생성한 RM이 인간역할을 하며 지도해준다" 라고 이해해도 될까요?

좋은 강의 다시 한번 감사합니다 :)

--> 네, 맞습니다. GPT-3와 같은 대형 언어 모델은 일반적인 언어 생성 모델이므로, 특정 응답이 부적절하거나 비합리적일 수 있습니다. 이를 개선하기 위해, SFT 단계에서는 모델이 인간이 선호하는 방식으로 응답하도록 학습합니다. 이 단계는 다음과 같이 진행됩니다:

데이터 준비: 인간 평가자가 작성하거나 선정한 고품질 질문-응답 쌍 데이터를 수집합니다.
지도 학습: 모델은 이 고품질 데이터를 사용하여 추가 학습을 합니다. 즉, 인간이 선호하는 방식으로 응답하도록 모델을 지도(supervised)합니다.

예를들어 RM의 input은 1단계에서 GPT가 생성한 문장셋, output은 각 문장셋들에 대한 인간이 매긴 각 랭킹을 맞추도록 학습하는 과정이 맞나요?

--> 네, 맞습니다. 2단계에서 보상 모델(Reward Model, RM)은 인간이 매긴 랭킹 데이터를 사용하여 학습합니다. 이 과정은 다음과 같이 이루어집니다:

데이터 수집:
- 1단계에서 생성된 여러 응답을 수집합니다.
- 인간 평가자들은 이러한 응답들에 대해 랭킹을 매깁니다.
보상 모델 학습:
- 보상 모델은 입력으로 주어진 응답 세트와 그에 대한 인간 평가자의 랭킹 데이터를 사용하여 학습합니다.
- 보상 모델의 목표는 주어진 응답 세트에 대해 인간 평가자가 매긴 랭킹을 예측하는 것입니다.

3) 3단계는 "1단계에서 Fine-Tuned된 모델을 이제는 인간이 보상해주는 대신 2단계에서 생성한 RM이 인간역할을 하며 지도해준다" 라고 이해해도 될까요?

--> 네, 맞습니다. 3단계는 강화 학습(Reinforcement Learning, RL) 단계로, 1단계에서 Fine-Tuning된 모델을 더 개선하기 위해 2단계에서 학습된 보상 모델(Reward Model)을 사용하여 학습하는 단계입니다. 이를 통해 모델이 더 나은 응답을 생성하도록 합니다.

좋은 질문 감사합니다.

인프런 커뮤니티 질문&답변