남겨주신 차트에서 보면 SGD는 수렴을 더 높은값에서 하게 되는데...

18.06.29 14:12 작성 조회수 68

0

남겨주신 차트에서 보면 SGD는 수렴을 더 높은값에서 하게 되는데

그렇다면 SGD는 완전한 최저점으로 수렴한것이 아니라고 봐도 되는 것인가요?

FGD 보다 왜 더 높은 cost값에서 수렴하고 끝나는 것인가요? 해결책은 무엇인가요?

답변 1

답변을 작성해보세요.

0

Gradient descent 기법은 데이터에 따라 최적 값을 못 찾을수도 있습니다.

그러나 실험적으로(empirical study) GD의 다양한 변형 기법을 써서 최적에 근접하게 찾는 방법을 여러 연구자들이 찾아냈습니다.

데이터의 분포가 3차원이상 넘어가면 저희의 상상 영역 밖으로 넘어가기 때문에 시각화할 수는 없지만 상대적인 값으로 조금 더 최적화된 값을 찾아냅니다(완전한 값은 알기 어렵습니다).

이 부분은 Deep Learning에서 좀 더 다루는 부분으로 Optimizer(Adam, AdaDelta, RMSprop) 등에 대해서 좀더 공부해보면 이해에 도움이 되실 겁니다.