작성
·
158
답변 1
0
저의 경우는 발산을 해 버려서 -_- 구글 검색을 해 보니 learning_rate 를 너무 크게 주면 발산하고 적게 주어야 수렴하는데 교수님 예제에서는 0.00001 정도는 되어야 수렴하기 시작하는 듯 합니다.
질문 올리신 분의 경우는 저와 반대로 learning_rate 를 너무 작게 주신 것이 아닌가 싶습니다.
학습이 되면서 cost 값의 추이를 살펴 보시면 선형적이지 않고 비선형 적이란 것을 관찰하실 수 있으며, 특히 작은 값에서는 수렴기울기가 더 낮아집니다. 만약 learning_rate 의 소수점 자리수를 cost 값이 발산하기 전까지 높이시다보면 교수님 예제 처럼 수렴하는 결과를 보게 되실 듯 합니다.