Section 3 이론 classification Loss function 질문
안녕하세요.
Section 3 이론 classification Loss function 질문있습니다.
ground truth는 각 class별 실제 확률값이라고 하셨는데, 실제 데이터에서 우리가 주어진 정보는 해당 observation이 어떤 클라스를 가지는지 label정보만 주어집니다. (확률이 아님)
각 loss function별 비교를 위해 설명해주신부분은 이해가 되었으나, 실제로 모델이 학습할때 class별 ground truth 확률값을 모르는 상황에서 어떻게 학습이 되는지 궁금합니다.
혹시라도 강의 후반에 관련 내용이 나온다면 미리 죄송하다는 말씀 드립니다.
감사합니다.
답변 1
2
안녕하세요 변정현입니다~
좋은 질문 주셔서 감사합니다~
네 일반적으로는 어떤 클라스를 가지는지 Label값이 주어집니다.
하지만, 예를 들어서 Masked Language Modeling의 task처럼
"<...>은 강아지의 한 종류이다" 라는 문장에서 빈칸에 들어가기 적합한 단어는 여러가지가 있을 수 있습니다.
"치와와"도 정답지가 될 수 있고, "말티즈"도 정답지가 될 수 있습니다.
따라서 여러 class들이 동시에 정답지가 될 수 있는 경우에 Ground Truth은 확률값으로 표현될 수도 있습니다.
그리고 학습 기법 중 하나인 Label Smoothing은 딥러닝 모델의 분류 문제에서 모델의 일반화 성능을 향상시키기 위해 사용되는 기법인데요.
Label smoothing은 정답 레이블을 완전히 확신하는 대신, 정답 레이블을 약간 부드럽게 만들어 모델이 지나치게 확신하지 않도록 합니다. 이를 통해서 모델의 과적합을 방지하여 일반화 성능에 도움이 됩니다. 예를 들어, 원-핫 인코딩에서 [0, 1, 0]이 정답이라면, Label smoothing을 적용하면 [0.1, 0.8, 0.1]처럼 정답에 대해 덜 확신하게 됩니다.
그리고 "실제로 모델이 학습할때 class별 ground truth 확률값을 모르는 상황에서 어떻게 학습이 되는지 궁금합니다."에 대한 부분은 Gradient Descent (경사 하강 방법)에서 설명됩니다!
감사합니다~
노션URL 이동문제
0
56
1
섹션12 실습코드 의 initialization 각각 적용 코드 문의
0
97
0
오타
0
82
0
혹시 이론강의 자료도 공유가 가능하실까요?
1
166
1
[sec. 2-8 실습] 배치사이즈의 선택
0
171
2
[section 14 / [실습] 직접 만든 CNN 모델과 ResNet, VGGNet을 활용한 CV 프로젝트] transforms.Normalize 질문
1
226
1
[section 14 / VGGNet ] receptive filed 질문
1
131
2
[섹션3, PyTorch로 구현해보는 Loss Function] 분류task loss함수 질문입니다.
1
233
2
KL Div Loss에서 Negative Entropy를 더해주는 의미에 대해서
1
193
2
GoogleNet Inception 모듈
1
166
2
Batch Normalization 효과
1
183
2
Layer Norm이 언어모델에 적합한 이유
1
520
1
9-2 fully connected NN
1
129
1
Mini-batch Gradient Descent computation time 질문
1
175
2
Huber Loss에 대한 질문
1
303
2
Batch size 가 극단적으로 작은 경우 (예를들어 batch_size =1) Normalization 적용 방안
3
351
1
Normalization 질문
1
270
2
Section 7 [Activation Function의 종류] Softmax logit 분포와 Entropy 질문이 있습니다
2
210
1
Section 3 [실습] PyTorch로 구현해보는 Loss Function의 Cross Entropy 구현 관련하여 질문이 있습니다.
1
299
1
Section 3의 [이론] Regression task의 Loss: L1, L2, Huber, Log Cosh Loss "미분가능"관련 에서 질문이 있습니다.
1
280
1
Section 15 실습 중, lstm 클래스의 forward 함수 질문
1
236
2
Section 16 [이론] Transformer의 Encoder 질문
1
177
1
Auto Differentiation에서 computational Graph 질문있습니다
1
212
1
section4의 entropy 시그마 식 전개에 대한 질문입니다.
1
265
2





