Weight Decay(重み減衰)
効果
- 損失関数に正則化項を加え過学習を防ぐ
- qは正の定数(q=1のときL1正則化(Lasso正則化), q=2のときL2正則化(Ridge正則化)と呼ぶ)
- 単に重み減衰と書かれている場合はL2正則化を意味する.
- 正則化項にL1, L2両方を足す場合もある.
- ロジスティック回帰,ニューラルネットワーク,SVMなど幅広い箇所で出てくる.
L1正則化
- 各次元に対して重みが正ならλ, 負なら-λに重みを更新するようになっている.
- つまり,予測する際に関係のない(関連性の低い)変数に対する重みが0に近づくようになっており,変数の絞込を行うことが可能.
- 用途としては,DBを単にダンプしたデータから解析を行って欲しいなど,明らかに関係ない変数が大量に含まれている場合に効果を発揮しやすい.
L2正則化
- 重みが大きいほど0に近づいていくよう重みを更新する働きがあり,重みの発散を緩和させる効果がある.
- 多層ニューラルネットワークなどでは重みが発散しやすいので,よく使われている.