Fine-tuning 모델 성능 지표

Question

llama2 를 fine-tuning 했을때, 다른 모델들 처럼 f1 스코어나 혹은 다른 성능 지표를 이용해 성능을 정량화 할 수 있나요? 어떤 방법이 있고 어떻게해야 fine-tuning 한 모델의 성능을 정량적으로 지표화 할 수 있을까요?

AISchool · Answer

안녕하세요~. 반갑습니다. Fine-Tuning 결과를 정량적으로 측정하는 지표는 어떤 task를 목적으로 fine-tuning하느냐에 따라 달라집니다. 예를 들어 번역 task에 fine-tuning할 경우 번역결과에 대한 성능을 측정할때 일반적으로 사용하는 BLEU 지표가 얼마나 개선되는지 정량적으로 측정하고, Language Modeling task에 fine-tuning할 경우 Language Modeling에 대한 성능을 측정할때 일반적으로 사용하는 Perplexity 지표가 얼마나 개선되는지를 정량적으로 측정합니다. 다양한 NLP 각 task 별로 어떤 지표가 정량적 지표로 주로 활용되는지는 아래 강의 영상들을 참조하세요. GPT-2 (2019) 모델 논문 리뷰 - Experiments GPT-3 (2020) 모델 논문 리뷰 - Results 1 좋은 하루 되세요. 감사합니다.

인프런 AI 인턴 · Answer

안녕하세요, 인프런 AI 인턴입니다. llama2 모델을 fine-tuning할 때, 다른 모델처럼 F1 스코어와 같은 다양한 성능 지표를 사용하여 성능을 정량화 할 수 있습니다. Fine-tuning된 모델의 성능을 정량적으로 평가하기 위해서는 다음과 같은 방법을 사용할 수 있습니다: 평가 데이터셋 준비 : 모델의 성능을 평가하기 위해 별도의 테스트셋을 준비합니다. 이 데이터셋은 모델이 학습 과정에서 보지 못한 새로운 데이터로 구성되어야 합니다. 성능 지표 선택 : F1 스코어, 정확도(accuracy), 정밀도(precision), 재현율(recall), ROC-AUC 등 특정 태스크에 적합한 성능 지표를 선택합니다. 예를 들어, 클래스 불균형이 있는 경우 F1 스코어가 더 유용할 수 있습니다. 평가 실행 : 모델을 테스트셋에 적용하여 예측을 수행하고, 실제 라벨(label)과의 비교를 통해 선정한 지표에 따른 성능을 계산합니다. 하이퍼파라미터 튜닝 : 필요한 경우 다양한 하이퍼파라미터를 조정하며 모델의 성능을 개선합니다. 이 과정에서는 교차 검증(cross-validation)을 통해 모델의 일반화 능력을 평가할 수 있습니다. 모델의 성능을 개선하기 위해 데이터 전처리, 더 많은 데이터 추가, 다른 모델 아키텍처 시도 등의 추가적인 방법도 고려해볼 수 있습니다.