Bonjour, Habr!
Chez Reksoft, nous avons traduit l'article Sélection des fonctionnalités dans l'apprentissage automatique en russe . Nous espérons qu'il sera utile à tous ceux qui ne sont pas indifférents au sujet.
Dans le monde réel, les données ne sont pas toujours aussi propres que les clients commerciaux le pensent parfois. C'est pourquoi l'exploration de données et le traitement des données sont en demande. Il aide à identifier les valeurs et les modèles manquants dans les données structurées par requêtes qui ne peuvent pas être identifiées par les humains. L'apprentissage automatique est pratique pour rechercher et utiliser ces modèles pour prédire les résultats à l'aide de connexions de données découvertes.
Pour comprendre un algorithme, vous devez examiner toutes les variables des données et déterminer ce que ces variables représentent. Ceci est essentiel car la justification des résultats repose sur la compréhension des données. Si vos données contiennent 5 voire 50 variables, vous pouvez toutes les examiner. Et s'il y en avait 200? Ensuite, il n'y aura tout simplement pas assez de temps pour examiner chaque variable individuelle. De plus, certains algorithmes ne fonctionnent pas pour les données catégorielles, puis toutes les colonnes catégorielles devront être quantifiées (elles peuvent sembler quantitatives, mais les métriques montreront qu'elles sont catégoriques) afin de les ajouter au modèle. Ainsi, le nombre de variables augmente et il y en a environ 500. Que faire maintenant? Vous pourriez penser que la réduction de la dimensionnalité est la réponse. Les algorithmes de réduction de dimension réduisent le nombre de paramètresmais affectent négativement l'interprétabilité. Et s'il y avait d'autres techniques qui éliminent les traits tout en rendant le reste facile à comprendre et à interpréter?
, , , .
, , . , (dataset) « » « », , , , . . , (overfit) .
P-
, , — . p-, . , p-, - , , , , (target).
— , . , , , . , , . . p-, . , , ( ).
, . . ( ), . p- . .
RFE / . , « » , ; ( 200-400), , - , . RFE . . . , RFE , ( , , , ).
, ( p-) ( , ). , , Random Forest, LightGBM XG Boost, , « ». , .
(bias) (variance). , (overfit) . , . , . ! :
L1 — : (.. ). , , , (.. , ).
L2 — Ridge: Ridge . Ridge , .
Ridge , , , Elastic-Net.
, : . — , , , .
! !