Revue d'article - AdderNet: Avons-nous vraiment besoin de multiplication dans l'apprentissage profond? (Classification des images)

L'utilisation de l'addition au lieu de la multiplication pour la convolution entraîne moins de latence que CNN standard

Convolution AdderNet utilisant l'addition, pas de multiplication

AdderNet: ?, (AdderNet), , Huawei Noah's Ark Lab .

?

AdderNet
: BN, ,

1. AdderNet

1.1.

, Y :

S - .

1.2.

Convolution standard utilisant la multiplication

, . .

1.3. AdderNet

Convolution AdderNet utilisant l'addition, pas de multiplication — AdderNet ,

, l1- :

l1- .

, .

, , - , .

2. : BN, ,

2.1. (Batch Normalization - BN)

, (BN) Y , , CNN, AdderNets.

BN , , , .

( - BN, ?)

2.2.

l1- . , l2-:

.

, X [-1,1].

Y X :

HT - HardTanh:

2.3.

l2-mesures de gradients dans LeNet-5-BN — l2- LeNet-5-BN

, AdderNets , CNN, AdderNets.

AdderNets :

γ - (, BN ), ΔL(Fl) - l, αl - .

,

k Fl, η - .

3.

3.1. MNIST

LeNet-5-BN .

CNN 99,4% 435K 435K .

, AdderNet 99,4%, CNN, 870K .

, .

, VIA Nano 2000 4 2 . AdderNet LeNet-5 1.7M, CNN 2.6M CPU.

3.2. CIFAR

Résultats de la classification sur les ensembles de données CIFAR-10 et CIFAR-100 — CIFAR-10 CIFAR-100

BNN: convolution XNORNet utilisant des opérations booléennes XNOR — BNN: XNORNet, XNOR

(Binary neural networks - BNN): XNOR , .

VGG-small, AdderNets (93,72% CIFAR-10 72,64% CIFAR-100) CNNs (93,80% CIFAR-10 72,73% CIFAR-100).

BNN , AdderNet CNN, (89,80% CIFAR-10 65,41% CIFAR-100).

ResNet-20, CNN (.. 92,25% CIFAR-10 68,14% CIFAR-100), (41,17M).

AdderNets 91,84% CIFAR-10 67,60% CIFAR-100 , CNN.

, BNN 84,87% 54,14% CIFAR-10 CIFAR-100.

ResNet-32 , AdderNets CNN.

3.3. ImageNet

Classement des résultats sur les ensembles de données ImageNet — ImageNet

CNN 69,8% top-1 89,1% top-5 RESNET-18. , 1.8G .

AdderNet 66,8% top-1 87,4% top-5 ResNet-18, , .

, BNN , 51,2% top-1 73,2% top-5 ResNet-18.

ResNet-50.

3.4.

Visualisation des fonctionnalités dans AdderNets et CNN. Les balises CNN de différentes classes sont divisées en fonction de leurs coins. — AdderNets CNN. CNN .

LeNet++ MNIST, 3D .

32, 32, 64, 64, 128, 128 2 .

AdderNets l1- . .

, AdderNets CNN.

Visualisation des filtres dans la première couche de LeNet-5-BN sur MNIST — LeNet-5-BN MNIST

adderNets - .

, AdderNets .

Histogrammes de poids avec AdderNet (à gauche) et CNN (à droite). — AdderNet () CNN ().

AdderNets , CNN . , l1- .

3.5.

AdderNets Learning Curve utilisant divers schémas d'optimisation — AdderNets

AdderNets, (adaptive learning rate - ALR) (increased learning rate - ILR), 97,99% 97,72% , , CNN (99,40%) .

AdderNets.

AdderNet ILR 98,99% . (ALR), AdderNet 99,40%, .

[2020 CVPR] [AdderNet]

AdderNet: Do We Really Need Multiplications in Deep Learning?

1989–1998: [LeNet]

2012–2014: [AlexNet & CaffeNet] [Dropout] [Maxout] [NIN] [ZFNet] [SPPNet] [Distillation]

2015: [VGGNet] [Highway] [PReLU-Net] [STN] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2]

2016: [SqueezeNet] [Inception-v3] [ResNet] [Pre-Activation ResNet] [RiR] [Stochastic Depth] [WRN] [Trimps-Soushen]

2017: [Inception-v4] [Xception] [MobileNetV1] [Shake-Shake] [Cutout] [FractalNet] [PolyNet] [ResNeXt] [DenseNet] [PyramidNet] [DRN] [DPN] [Residual Attention Network] [IGCNet / IGCV1] [Deep Roots]

2018: [RoR] [DMRNet / DFN-MR] [MSDNet] [ShuffleNet V1] [SENet] [NASNet] [MobileNetV2] [CondenseNet] [IGCV2] [IGCV3] [FishNet] [SqueezeNext] [ENAS] [PNASNet] [ShuffleNet V2] [BAM] [CBAM] [MorphNet] [NetAdapt] [mixup] [DropBlock] [Group Norm (GN)]

2019: [ResNet-38] [AmoebaNet] [ESPNetv2] [MnasNet] [Single-Path NAS] [DARTS] [ProxylessNAS] [MobileNetV3] [FBNet] [ShakeDrop] [CutMix] [MixConv] [EfficientNet] [ABN] [SKNet] [CB Loss]

2020: [Random Erasing (RE)] [SAOL] [AdderNet]

"Deep Learning. Basic".

- : "Knowledge distillation: ".

-

- -

All Articles