선생님, 질문이 있습니다.
시간 15:11에서 결국에는 1,2과정을 반복하게 된다면
각 신경망에서 구했던 미분값을 cache하여 저장해뒀다가
역전파의 과정에서 활용을 하거나 하지는 않나요?
물론 GD를 반복하면서 각 층의 가중치 배열의 값들이 계속 update가 될테지만 어차피 같은 대상에 대하여 같은 미분 연산을 하게 되니까요
무언가 dynamic programming처럼 각 층의 각 노드별로
결과값을 저장해두면 역전파 시 속도가 향상될거같다고 추측은 해보는데 이게 맞나요??
감사합니다.
답변 1
1
이건 정확히는 잘 모르겠습니다만, 굳이 layer별로 이전에 계산된 미분값을 저장할 필요는 없을 것 같습니다.
경사하강법 자체가 계속 iteration하면 loss를 줄이는 방식으로 진행한다가 전제가 되어 있기 때문에 저장할 필요가 없다고 생각합니다.
resize 질문
0
60
1
20251212 Kaggle 런타임에 scikit-learn 설치 실패 트러블 슈팅
0
86
1
Loss와 매트릭 관계
0
75
2
Boston 코랩 실습
0
170
2
배치 정규화의 이해와 적용 2 강의 질문
0
143
2
Augmentation원본에 적용해서 데이터 갯수 자체를 늘리는 행위는 의미가있나요?
0
151
2
Conv함수 안에 activation 을 넣지 않는 이유가 뭔지 궁금합니다.
0
212
2
소프트맥스 관련 질문입니다
0
215
1
강의 관련 질문입니다
0
161
2
residual block과 identity block의 차이
0
199
2
옵티마이저와 경사하강법의 차이가 궁금합니다.
1
251
1
실습 환경
0
171
2
입력 이미지 크기
0
256
2
데이터 증강
0
203
2
albumentations ShiftScaleRotate
0
211
1
Model Input Size 관련
0
293
1
마지막에 bird -> frog 말고도 deer -> frog 도 잘못된것 아닌가요??
0
206
1
일반적인 질문 (kaggle notebook사용)
0
276
2
실무에서 Augmentation 적용 시
0
346
2
안녕하세요 교수님
0
235
1
가중치 초기화(Weight Initialization) 질문입니다.
0
332
1
테스트 데이터셋 predict의 'NoneType' object has no attribute 'shape' 오류
0
412
1
학습이 이상하게 됩니다.
2
1040
2
boston import가 안됩니다
0
230
1





