inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

생성형 AI 기초와 동작 원리 이해

ChatGPT

ChatGPT RLHF 관련 질문드립니다!

303

David

작성한 질문수 13

0

안녕하세요. NLP 강의 들었었는데 쉽고 정확하게 강의해주셔서 이번에 새로나온 강의도 신청하게 되었습니다! ㅎㅎ

질문 드립니다.

1) RLHF에서 1단계는 GPT-3가 특정 질문에 대해 아무말 대잔치하며 생성했을 때, 인간이 선호하는 방식은 바로 이거야 라고 알려주어 아무말 대잔치를 못하도록 모델이 학습되는 과정(=SFT) 이라고 이해가 되는데 맞나요?

 

2) 2단계는 1단계에서 생성한 여러 답변들에 인간이 랭킹을 매긴다는 것을 이해했습니다. 인간이 매긴 랭킹들에 대한 데이터 셋을 RM(Reward Model)이 학습한다는건,

예를들어 RM의 input은 1단계에서 GPT가 생성한 문장셋, output은 각 문장셋들에 대한 인간이 매긴 각 랭킹을 맞추도록 학습하는 과정이 맞나요?

 

3) 3단계는 "1단계에서 Fine-Tuned된 모델을 이제는 인간이 보상해주는 대신 2단계에서 생성한 RM이 인간역할을 하며 지도해준다" 라고 이해해도 될까요?

 

좋은 강의 다시 한번 감사합니다 :)

python openai multimodal transformer 생성형ai

답변 1

1

YoungJea Oh

1) RLHF에서 1단계는 GPT-3가 특정 질문에 대해 아무말 대잔치하며 생성했을 때, 인간이 선호하는 방식은 바로 이거야 라고 알려주어 아무말 대잔치를 못하도록 모델이 학습되는 과정(=SFT) 이라고 이해가 되는데 맞나요?

--> 네, 맞습니다. GPT-3와 같은 대형 언어 모델은 일반적인 언어 생성 모델이므로, 특정 응답이 부적절하거나 비합리적일 수 있습니다. 이를 개선하기 위해, SFT 단계에서는 모델이 인간이 선호하는 방식으로 응답하도록 학습합니다. 이 단계는 다음과 같이 진행됩니다:

  1. 데이터 준비: 인간 평가자가 작성하거나 선정한 고품질 질문-응답 쌍 데이터를 수집합니다.

  2. 지도 학습: 모델은 이 고품질 데이터를 사용하여 추가 학습을 합니다. 즉, 인간이 선호하는 방식으로 응답하도록 모델을 지도(supervised)합니다.

2) 2단계는 1단계에서 생성한 여러 답변들에 인간이 랭킹을 매긴다는 것을 이해했습니다. 인간이 매긴 랭킹들에 대한 데이터 셋을 RM(Reward Model)이 학습한다는건,

예를들어 RM의 input은 1단계에서 GPT가 생성한 문장셋, output은 각 문장셋들에 대한 인간이 매긴 각 랭킹을 맞추도록 학습하는 과정이 맞나요?

--> 네, 맞습니다. 2단계에서 보상 모델(Reward Model, RM)은 인간이 매긴 랭킹 데이터를 사용하여 학습합니다. 이 과정은 다음과 같이 이루어집니다:

  1. 데이터 수집:

    • 1단계에서 생성된 여러 응답을 수집합니다.

    • 인간 평가자들은 이러한 응답들에 대해 랭킹을 매깁니다.

  2. 보상 모델 학습:

    • 보상 모델은 입력으로 주어진 응답 세트와 그에 대한 인간 평가자의 랭킹 데이터를 사용하여 학습합니다.

    • 보상 모델의 목표는 주어진 응답 세트에 대해 인간 평가자가 매긴 랭킹을 예측하는 것입니다.

3) 3단계는 "1단계에서 Fine-Tuned된 모델을 이제는 인간이 보상해주는 대신 2단계에서 생성한 RM이 인간역할을 하며 지도해준다" 라고 이해해도 될까요?

--> 네, 맞습니다. 3단계는 강화 학습(Reinforcement Learning, RL) 단계로, 1단계에서 Fine-Tuning된 모델을 더 개선하기 위해 2단계에서 학습된 보상 모델(Reward Model)을 사용하여 학습하는 단계입니다. 이를 통해 모델이 더 나은 응답을 생성하도록 합니다.

 

좋은 질문 감사합니다.

작업형 1 유형 부분

0

8

1

수강평 이벤트

0

15

2

작업형 1 (삭제예정, 구 버전)

0

28

2

강의노트는 어디있나요?

0

15

1

노션 학습 자료 권한 요청

0

13

1

수강기간 연장 문의드립니다.

0

19

1

2유형 레이블 인코딩 VS 원핫 인코딩

0

19

3

part2강의 문의사항입니다.

0

17

2

수강기간 연장 문의드립니다.

0

26

1

인덱스 슬라이싱

0

26

2

코드를 첨부해야하는 이유가 있나요?

0

20

2

소리가 겹쳐서 들려요

0

19

2

데스크톱과 노트북 연결

0

26

1

18강 smithery 를 이용한 mcp 실습(업데이트 요청)

0

17

1

guardrails 부분도 현재버전과 약간 다릅니다.

0

18

1

dict, zip

0

21

2

노션 : 파트3번 링크와 권한 , 파트4번 권한요청, 파트 5번도 미리 요청 드립니다.

0

27

4

6-6 실습 문의

0

23

2

smithery ai 언제 업데이트 되나요?

0

17

1

미션 06-02

0

23

2

yes24 수집 md 파일 만들 때

0

23

2

python main.py 실행시 게임이 실행이 안돼요

0

26

2

쥬피터노트북 통한 python3 연결실패

0

76

2

클립모델 실습 중 에러 발생 관련 문의드립니다.

0

164

2