TensorFlow 2.0으로 배우는 딥러닝 입문

Batch Gradient Descent, Stochastic Gradient Descent, Mini-Batch Gradient Descent

ppt 5p 질문

2021-09-27T09:04:32.546Z

328

작성자 없음

ppt 5p, Batch Gradient Descent에서
첫 번째 동그라미,
'트레이닝 데이터 n개의 손실함수 미분값을 모두 더한 뒤 평균을 취해서 파라미터를 한 스텝 업데이트...' 문장을
'트레이닝 데이터 n개의 손실함수 미분값을 계산해서 파라미터를 한 스텝 업데이트...'로 바꿔야 맞는 거 아닌가요?

추가로 ppt 7p, Mini-Batch Gradient Descent에서
두 번째 동그라미,
'...이를 100개씩 묶은 Mini-Batch 개수만큼의 손실 함수 미분값 평균을 이용해서...' 문장도
'...이를 100개씩 묶은 Mini-Batch 개수만큼의 손실 함수 미분값을 이용해서...'와 같이 바꿔야 할 것 같습니다.

딥러닝 머신러닝 배워볼래요? tensorflow

답변 1

AISchool

2021-10-06T09:07:56.721Z

안녕하세요~. 반갑습니다.

미분값들의 평균을 이용해서 계산하는게 gradient descent의 동작방식인데요.

혹시 어떤 의미에서 평균을 이용해서 -> 이용해서로 변경해야 된다고 말씀해주신 건지 여쭤봐도 될까요?

감사합니다.

gaeun na

2021-10-06T22:50:31.368Z

batch(트레이닝 데이터 n개)의 (1)loss를 계산한 뒤 (2)해당 loss의 미분값을 계산하여 (3)파라미터를 업데이트

하는 방식이지

batch(트레이닝 데이터 n개)의 (1)loss를 계산한 뒤 (2)해당 loss의 미분값을 계산하여 (3)평균을 낸 뒤 (3)파라미터를 업데이트

하는 방식이 아니지 않나요?

즉, 미분값들의 평균을 계산하는 것이 아니라 mini batch/batch/training sample 단위의 loss(ex.mse, 해당 산식에서 이미 평균이 계산됨)를 계산한 뒤 미분값을 계산해 한 step씩 파라미터를 업데이터 하는 것이 아닌지 해서요

gaeun na

2022-01-08T08:39:47.513Z

n/m개 트레이닝 샘플의 mse를 계산한 뒤 미분값을 계산하는 게 맞는 건가요?

아님 n/m개 트레이닝 샘플 각각의 error를 계산한 뒤 미분값을 계산해서 전체 평균을 내는 게 맞는 건가요?

질문에 대한 답변 좀 빨리 부탁 드립니다.

벌써 2개월이 넘게 지났네요.

AISchool

2022-01-11T12:50:34.216Z

안녕하세요~. 답신이 늦어서 죄송합니다ㅠ.

batch 단위의 MSE를 기준으로 전체 batch에 대해 한번에 차이의 미분값을 취해서 연산을 수행하나 batch 하나하나를 기준으로 차이값들을 계산해서 이들 차이의 미분값의 평균을 내나 순서의 차이일 뿐 최종 결과값은 같습니다. 따라서 동일한 결과값을 얻을 수 있으므로 무엇이 맞다 틀리다라고 명확히 표현하기 애매한점 양해부탁드립니다. (굳이 따지자면 둘다 맞다고 할수 있겠네요.)

감사합니다.

22강 코드 call()메서드 is_training -> model(x,False)로 호출시 밸류에러 참고

2026-03-07T15:36:57.917Z

선형 회귀 모델에 대해서 질문 있습니다

2024-07-23T16:05:51.196Z

271

tf.keras.model.reset_states()

2024-05-28T10:24:35.047Z

762

[질문]colab환경에서 텐서보드(TensorBoard)를 이용해서 학습과정 시각화(Visualization)하기강의 관련 질문

2024-05-25T07:26:59.548Z

523

[질문]colab환경에서 tf.train.CheckpointManager API를 이용해서 파라미터 저장하고 불러오기 실행에 대한 질문

2024-05-25T07:24:29.526Z

302

colab에서 구동 가능한 char-rnn 코드 관련 질문

2024-05-24T08:00:43.487Z

225

안녕하세요 파이썬이랑 tensorflow 정확한 버전 알수있을까요?

2024-05-02T12:12:32.055Z

262

colab 환경에서 Autoencoder 구현하였으나 결과가 보이지 않는 분들 참고사항

2024-04-27T06:45:18.403Z

217

Mnist 에 keras를 통해 softmax를 활용한 regerssion error 발생

2024-04-14T12:48:04.837Z

2116

GRU 리셋게이트, 포겟게이트 질문

2023-05-14T09:06:22.334Z

273

ANN 구현

2023-04-25T13:37:14.509Z

362

char-rnn 코랩 에러 ... 못보나요,, cpus는 너무 느려서

2023-03-31T01:54:05.615Z

606

ANN으로 Mnist 숫자분류기 코드질문

2022-03-07T01:08:13.412Z

302

ppt 12p 질문

2022-01-06T12:08:20.064Z

389

keras에서 이미 정의된 모델을 가져와 학습할 경우

2021-11-05T10:02:16.431Z

663

모델 코드 질문

2021-10-13T17:24:45.772Z

384

코드 질문

2021-10-06T03:16:41.879Z

292

ppt 10p

2021-09-29T09:53:21.076Z

395

ppt 13p 추가 질문

2021-09-29T09:40:03.458Z

268

ppt 9p 추가 질문

2021-09-29T09:37:39.969Z

273

ppt 9p 질문

2021-09-25T15:17:16.570Z

289

vanishing gradient

2021-09-22T15:57:52.641Z

287

TensorFlow 2.0을 이용한 CIFAR-10 이미지 분류를 위한 CNN 구현 질문

2021-08-27T09:33:04.605Z

270

텐서플로우 설치 오류

2021-08-22T03:00:46.230Z

271