Momentum(移動平均)
確率的最急降下法について考えたとき,目的関数の曲率が大きくなると,ステップ幅(学習率)が大きくなりすぎて収束しづらくなる.
そのため,ステップ幅を抑えるために直近のMomentumを足し上げたのがMomentumSGD[1].
- E(w): 損失関数(連続的微分可能.ReLUも考慮する必要があるので,本来は劣微分とか考える必要がある.)
- t: 反復回数
- ν ∈ [0, 1)
- w_{t+1} = w_t + ∇E(w_t) + νΔw_{t-1}
ここで,Δw_{t-1} = w_{t-1} - w_{t-2}
Adam[2]とかもMomentumの仕組みが入っているので,反復回数が少なくなる傾向がある.