Momentum(移動平均) - ゲームAI備忘録

確率的最急降下法について考えたとき，目的関数の曲率が大きくなると，ステップ幅(学習率)が大きくなりすぎて収束しづらくなる．
そのため，ステップ幅を抑えるために直近のMomentumを足し上げたのがMomentumSGD[1].

ここで，Δw_{t-1} = w_{t-1} - w_{t-2}

Adam[2]とかもMomentumの仕組みが入っているので，反復回数が少なくなる傾向がある．

[1]. Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. "Learning representations by back-propagating errors." Cognitive modeling 5.3 (1988): 1.
[2]. Kingma, Diederik, and Jimmy Ba. "Adam: A method for stochastic optimization." arXiv preprint arXiv:1412.6980 (2014).