【論文メモ】Rethinking Normalization and Elimination Singularity in Neural Networks
「Rethinking Normalization and Elimination Singularity in Neural Networks」をざっと読んだのでそのメモです。
arxiv.org
github.com
論文の概要
- 画像認識に使うDeep neural network (DNN)の構造お話。
- Batch normalization (BN)はDNNでとてもよく使われる正則化層であるが、バッチサイズが小さいときに性能が落ちる。この論文ではBNの代替としてBatch-Channel Normalization (BCN)を提案している。BCNはBNより性能がよく、小さいバッチサイズでも使える。
- 検証ではBCN+Weight Standalization (WS)※がBNやGroup normalization (GN)+WSよりも良い精度を出していた。
- BCNの導出前の考察として、なぜGNやLayer Normalization (LN)がBNに劣るか、なぜWSが効くかについて、Reluによるsingularity発生という観点から述べられている。
※WS : 最近話題のBiT-Lでも使われているホットな奴です。
[1903.10520] Weight Standardization
Batch-Channel Normalization
BCNはバッチサイズが大きいときと小さいときで処理が異なる。
バッチサイズが大きいとき
入力をXとすると、BCNの出力BCN(X)は次式で表される。
要するに、BNしてからGNしているだけ。簡単。
一見冗長であるが非線形性が増したりするので意味があると論文では言及されてる。
バッチサイズが小さいとき
入力をXとすると、BCNの出力BCN(X)は次式で表される。
さっきと同じように見えるが、このBN'は普通のBNの以下の点が異なる。
普通のBN
BN'
検証結果
画像認識ではCifar10, Cifar100, ImageNet、物体検出ではCOCO、セグメンテーションではPASCALで検証されています。
BCN+WSが強いですね。物体検出とセグメンテーションではBNと比較していないのが残念。