Formation sur les données tabulaires. TABNet. Partie 1

Nous voulions présenter la traduction d'un article intéressant sur l'apprentissage à l'aide de réseaux de neurones sur des données tabulaires. La deuxième partie est ici.


Présente TabNet, une nouvelle architecture canonique d'apprentissage profond haute performance basée sur des données tabulaires. TabNet utilise des évaluations séquentielles du choix des fonctionnalités à utiliser à chaque point de décision. Cela garantit l'interprétabilité et l'efficacité du processus d'apprentissage, puisque la capacité à apprendre est déterminée par les fonctions les plus pertinentes (les plus adéquates, selon les estimations considérées du choix de la solution). Il a été démontré que TabNet surpasse les autres architectures de réseaux neuronaux et d'arbres de décision sur une large gamme d'ensembles de données scalaires tabulaires dans l'interprétation des attributs de performance, conduisant à une compréhension du comportement global du modèle. Enfin, pour la première fois, à notre connaissance,nous démontrons un apprentissage auto-supervisé pour les données tabulaires avec une augmentation significative du taux d'apprentissage et un ensemble de données initial suffisamment grand.

1. Introduction

Les réseaux de neurones profonds (GNN) ont montré leur succès en travaillant avec des images [21, 50], du texte [9, 34] et du son [1, 56]. Pour ces types de données, le principal facteur de développement est la disponibilité d'architectures canoniques qui permettent d'encoder efficacement les séquences initiales en séquences d'apprentissage, pour fournir des performances élevées sur de nouveaux ensembles de données et des tâches résolues avec leur aide avec un minimum de ressources. Par exemple, dans l'interprétation d'images, des variantes de réseaux convolutifs résiduels (en particulier, ResNet [21]) devraient fournir des performances raisonnablement bonnes lorsque l'on travaille avec de nouveaux ensembles de données pour des images ou des problèmes de reconnaissance visuelle associés (par exemple, classification, taxonomie). Le seul type de données sur lequel le succès de l'architecture GNS canonique n'a pas encore été atteint est celui des données tabulaires. Malgré,qu'il s'agit du type de données le plus courant dans les implémentations d'IA [8], l'apprentissage en profondeur des données tabulaires reste mal compris et les variantes d'arbres de décision d'ensemble dominent toujours la plupart des applications [28]. Pourquoi cela est-il ainsi? Premièrement, parce que les approches arborescentes présentent certains avantages qui les rendent populaires: (i) elles sont suffisamment représentatives (et donc souvent très efficaces) pour les variétés de décision avec des limites de distribution hyperplan floues pour les données tabulaires; (ii) ils sont bien interprétés (par exemple, en suivant les décisions nodales) et il existe des méthodes efficaces pour expliquer a posteriori la forme de leur ensemble, ce qui est [36] une tâche importante dans de nombreuses applications du monde réel (par exemple, dans le secteur des services financiers, où la confiance dans des actions à haut risque est critique);(iii) ils apprennent rapidement. Deuxièmement, les architectures GNS proposées précédemment ne sont pas adaptatives aux données tabulaires: les GNS conventionnels sur couches convolutives ou perceptrons multicouches (MLP) sont souvent fortement paramétrés (par le nombre de paramètres et par la complexité de leur identification) - l'absence de biais inductif correspondant conduit au fait qu'ils ne le sont pas peuvent trouver la solution optimale pour la variété de solutions tabulaires [17]. Pourquoi étudier le Deep Learning pour les données tabulaires? Une raison évidente est que, comme dans d'autres domaines, des gains de performances peuvent être attendus des architectures basées sur GNS, en particulier pour les grands ensembles de données [22]. De plus, contrairement à l'apprentissage arborescent (hiérarchique), qui n'utilise pas la rétropropagation des erreurs de données pour conduire un apprentissage efficace à partir de signaux erronés,Les GNN fournissent des stratégies d'apprentissage de bout en bout de descente de gradient pour les données tabulaires, avec de nombreux avantages démontrés dans de nombreux domaines différents, permettant: (i) d'encoder efficacement de nombreux types de données, telles que des images sous forme de données tabulaires; (ii) faciliter ou éliminer la nécessité de développer des fonctionnalités, qui est actuellement un aspect clé des méthodes d'apprentissage par arborescence utilisant des données tabulaires; (iii) formation sur la diffusion de données en continu - la formation sur une structure arborescente nécessite des statistiques globales pour sélectionner les points nodaux, et de simples modifications, comme dans [4], donnent généralement une précision moindre que la formation pour l'ensemble de l'échantillon de données; En revanche, les STS démontrent un plus grand potentiel d'apprentissage tout au long de la vie [44]; (iv) explorer des modèles de présentation de bout en bout,permettant de nouveaux scénarios précieux pour de nouvelles applications, y compris l'adaptation aux domaines de l'utilisation efficace des données [17], la modélisation générative [46] et l'apprentissage à mi-enseignant [11].

, , . , ? - TabNet, « » ( ) ( ). , TabNet : . , - , . , : (1) , TabNet ; (2) TabNet , , , , (. . 1); , , , , [6] [61], Tab-Net .

 1.    TabNet          [14].        ,        . TabNet     ,          .           .          ,       , ,     .
1. TabNet [14]. , . TabNet , . . , , , .

(3) , : (a) TabNet ; (b) TabNet : , , , .

 2.   .        , ,      ,      .                   .
2. . , , , . .

(4) , , (. . 2).



: , , () . , LASSO [20], , , . , [6] , [61] «-» . , TabNet , () , .

: . [18]. , (). – [23], . XGBoost [7] LightGBM [30] - , (Data Science). , , , .

DNN : , [26], . () [33, 58] . , . [60] , . [31] -, , , . [53] - « » (, ), . TabNet , .

: - , [3, 35] . , .

: , , [47]. [13] [55] - .

 3.          ()     ().           .    ,     ( ,  ) ReLU      ,      .       .    C1  C2,      -  Softmax (   ).
3. () (). . , ( , ) ReLU , . . C1 C2, - Softmax ( ).


. (. . 3 ). . , () . TabNet - . , , , :

(i) , ; (ii) , , ; (iii) ; (iv) .

 4. )  TabNet    ,    ,          .       ,       ,       .                ,        . (b)  TabNet,       . (c)     – 4- ,  2          2      .      (, Fully-Connected)     (Batch Normalization)     (Gted Linear Unit). (d)     –        ,  ,          .      sparsemax [37]          .
4. ) TabNet , , . , , . , . (b) TabNet, . (c) – 4- , 2 2 . (, Fully-Connected) (Batch Normalization) (Gted Linear Unit). (d) – , , . sparsemax [37] .

. 4 TabNet . . . , (). D-

f \ dans R ^ {(B × D)}

, B- . TabNet N .

i- (i - 1)- , , . (, [25]) [40] .

, . ( ) , . .


M [i] ∈ R ^ {(B × D)}

. , , , . , M[i] · f. (. . 4) , , a[i − 1]:

  M [i] = sparsemax (P [i - 1] · h_i (a [i - 1])) \ (1)

Sparsemax [37] , .

, 1

\ sum_ {j = 1} ^ {D} M [i] _b, _j = 1

h[i] - , . 4., FC, BN, P[i] - , , :

P [i] = \ prod_ {j = 1} ^ {i = 1} (\ gamma - M [j]), \ (2)

γ - : γ = 1, γ, . P[0] ,

  1 ^ {B × D}

- . ( ), P[0] , . [19]:

L_ {sparse} = \ sum_ {i = 1} ^ {N_ {étapes}} \ sum_ {b = 1} ^ {B} \ sum_ {j = 1} ^ {D} \ frac {-M_ {b, j } [i]} {N_ {étapes} * B} journal (M_ {b, j} {[i]} + \ epsilon)

ϵ- . λ . , .

: (. . 4) ,

[d [i], a [i]] = fi (M [i] · f), où \ d [i] ∈ R ^ {B × N_d} \ et \ a [i] ∈ R ^ {B × N_a }.

, ( ), , .

. 4 . FC BN (GLU) [12], . √0.5 , , [15]. . BN, , , BN [24] BV mB. , , BN. , , . 3,

d_ {out} = \ sum_ {i = 1} ^ {N_ {étapes}} ReLU (d [i])


 W_ {final} d_ {out}

. softmax ( argmax ).


, , , .

