가중치 초기화(Weight Initialization) 질문입니다.
안녕하세요 교수님, CNN 강의와 같은 좋은 수업 감사드립니다.
다름이 아니라 가중치 초기화를 공부하다가 생긴 궁금증에 질문 글을 달아봅니다.
교수님께서 강의 하실 때 평균이 0, 표준 편차 1인 표준 정규 분포에서 Weight 초기화시 sigmoid 출력이 대부분 0과 1로 수렴하신다고 하셨는데
이렇게 되는 이유가 평균이 0, 표준 편차가 1인 표준 정규 분포에서 Weight를 초기화하면 처음에 Weight값이 너무 작거나 혹은 너무 큰 값들로 배정되기 때문에 저렇게 되는 걸까요?
즉, Weight값이 -1 ~ 1까지의 값들 중 임의로 배정되기 때문에 그런건가요?
반대로 Sigmoid 출력이 대부분 0.5로 수렴하는 경우에는 -0.01 ~ 0.01중 Weight 값이 결정되기 때문에 그런걸까요?
Câu trả lời 1
1
안녕하십니까,
먼저 가중치값이 대부분이 0에 가까운 경우(즉 평균이 0인데, 표준 편차가 0.01정도)에는 가중치값이 너무 작아서 sigmoid를 기반으로 한 activation layer가 아무리 많아도, 입력으로 들어오는 값이 커도 가중치 0값이 압도적으로 많기 때문에 sigmoid 출력값의 대부분이 0.5로 몰리게 됩니다.
그런데 가중치 값이 평균이 0, 표준 편차가 1 정도로만 되어도 입력값과 가중치가 행렬 연산을 해서 가중치 합으로 생성되는 값들이 - 또는 + 로 매우 큰 값들이 만들어지기 쉽습니다. 그러다 보니 sigmoid로 입력하면 출력값은 0 또는 1값이 많이 만들어지고, 또 sigmoid 출력값이 0 또는 1이 만들어지면 vanishing gradient 등으로 layer가 많아지더라도 가중치 update가 잘 되지 않아서 여전히 sigmoid 출력값은 0과 1이 많아지게 됩니다.
감사합니다.
resize 질문
0
49
1
20251212 Kaggle 런타임에 scikit-learn 설치 실패 트러블 슈팅
0
75
1
Loss와 매트릭 관계
0
61
2
Boston 코랩 실습
0
161
2
배치 정규화의 이해와 적용 2 강의 질문
0
134
2
Augmentation원본에 적용해서 데이터 갯수 자체를 늘리는 행위는 의미가있나요?
0
143
2
Conv함수 안에 activation 을 넣지 않는 이유가 뭔지 궁금합니다.
0
201
2
소프트맥스 관련 질문입니다
0
208
1
강의 관련 질문입니다
0
151
2
residual block과 identity block의 차이
0
183
2
옵티마이저와 경사하강법의 차이가 궁금합니다.
1
236
1
실습 환경
0
165
2
입력 이미지 크기
0
243
2
데이터 증강
0
194
2
albumentations ShiftScaleRotate
0
205
1
Model Input Size 관련
0
279
1
마지막에 bird -> frog 말고도 deer -> frog 도 잘못된것 아닌가요??
0
203
1
일반적인 질문 (kaggle notebook사용)
0
271
2
실무에서 Augmentation 적용 시
0
336
2
안녕하세요 교수님
0
230
1
테스트 데이터셋 predict의 'NoneType' object has no attribute 'shape' 오류
0
405
1
학습이 이상하게 됩니다.
2
1032
2
boston import가 안됩니다
0
224
1
Boston 주택 가격에서, scailing 안하면 값이 발산합니다.
0
218
1

