반응형
RMSProp
-
머신러닝: Training Neural Networks 공부하기2 (Optimization, Learning Rate, Regularization)머신러닝 2020. 10. 20. 22:59
우선 경사하강법(Gradient descent)는 가장 작은 loss를 갖는 W값을 찾기 위해 gradient를 이용한다. 그리고 SGD는 이를 mini batch를 이용하여 더 효율적으로 W를 찾는 방법이다. 하지만 SGD는 다음과 같은 상황들에 대해서 문제점을 지닌다. 만약 Loss 값이 급격하게 증가하거나 감소한다면 이 때는 얕은 차원이나 가파른 경사 때문에 발산하거나 진동하여 최적의 W를 찾는 과정은 느려진다. 또한 다음과 같이 경우 문제점을 갖는다. 1) local minima를 갖는 부분 우리가 원하는 W는 가장 작은 loss가질때이다. 하지만 첫번째 그래프는 global minima가 아닌 local minima에서 optimization을 멈출 가능성이 있으므로 문제가 발생한다. 2) sa..