경사 하강법 최적화 알고리즘 - 2
·
카테고리 없음
Stochastic Gradient Descent는 Batch Gradient Descent에 비해 최적값에 수렴할 가능성이 적으나, 적은 데이터를 사용하여 손실을 계산하고 모델을 업데이트 하므로 계산 속도가 빠르며 여러 번 반복할 경우 일반적인 batch 결과와 유사하게 수렴 가능하고 Batch Gradient Descent에서 빠질 지역 최소값에 빠지지 않고 더 좋은 방향으로 수렴할 가능성도 있음 ※ Batch Gradient Descent가 최소값에 수렴함을 보장한다고 하였으나 그 값이 지역 최솟값일지 전역 최솟값일지 모름 일반적으로 Neural Network를 학습시킬 때는 SGD를 사용함 단순히 SGD 방식만 사용할 경우 노이즈가 많고 안장점에서 방향을 잘 못잡거나 학습 속도에 문제가 있는 경우..