Risques et mises en garde lors de l'application de la méthode des composantes principales aux problèmes d'apprentissage supervisé

La traduction de l'article a été préparée à la veille du début du cours de base sur l'apprentissage automatique .








L'espace de grande dimension et sa malédiction



La malédiction de la dimensionnalité est un problème sérieux lorsqu'il s'agit d'ensembles de données réels, qui ont tendance à être multidimensionnels. À mesure que la dimension de l'espace des fonctionnalités augmente, le nombre de configurations peut augmenter de manière exponentielle et, par conséquent, le nombre de configurations couvertes par l'observation diminue.



Dans un tel cas, l'analyse en composantes principales (ACP) jouera un rôle important, réduisant efficacement la taille des données tout en conservant autant de variations que possible dans l'ensemble de données.



Jetons un coup d'œil à l'essence de l'analyse en composantes principales avant de plonger dans le problème.



Méthode des composants principaux - définition



L'idée principale derrière l'analyse en composantes principales est de réduire la dimension d'un ensemble de données qui est composé d'un grand nombre de variables interdépendantes, tout en conservant la variété maximale qui est présente dans l'ensemble de données.



Définissez une matrice symétrique A ,







X est une matrice mxn de variables indépendantes, où m est le nombre de colonnes et n est le nombre de points de données. La matrice A peut être décomposée comme suit:







D est une matrice diagonale, et E est une matrice de vecteurs propres de A , disposés en colonnes.



Principaux composants XSont des vecteurs propres XX T , ce qui signifie que la direction des vecteurs propres / composantes principales dépend de la variation de la variable indépendante (X) .



Pourquoi l'application irréfléchie de l'analyse en composantes principales est-elle le fléau des problèmes d'apprentissage supervisé?



La littérature mentionne souvent l'utilisation de l'analyse en composantes principales dans la régression, ainsi que dans les problèmes de multicolinéarité. Cependant, en plus de l'utilisation de la régression sur les composantes principales, il y avait de nombreuses idées fausses sur l'explicabilité de la variable de réponse par les composantes principales et l'ordre de leur importance.



Une idée fausse courante, qui a été rencontrée à plusieurs reprises dans divers articles et livres, est que dans un environnement d'apprentissage supervisé avec régression en composantes principales, les composantes principales de la variable indépendante à petites valeurs propres ne joueront pas un rôle important dans l'explication de la variable de réponse, ce qui nous conduit à le but de cet article. L'idée est que les composants avec de petites valeurs propres peuvent être tout aussi importants, voire beaucoup plus importants, que les composants de base avec de grandes valeurs propres pour expliquer la variable de réponse.



Ci-dessous, je vais énumérer quelques exemples de publications que j'ai mentionnées:



[1]. Mansfield et al. (1977, p. 38) suggèrent que si seules les composantes de faible variance sont éliminées, alors la régression ne perd pas beaucoup de pouvoir prédictif.

[2]. Dans Ganst et Mason (1980), 12 pages sont consacrées à la régression en composantes principales, et une grande partie de la discussion suggère que l'élimination des composantes principales est basée uniquement sur leurs variances. (pp. 327–328).

[3]. Mosteller et Türki (1977, pp. 397–398) soutiennent également que les composantes de faible variance ne sont probablement pas importantes dans la régression, évidemment parce que la nature est «délicate» mais pas «uniforme» .

[4]. Hawking (1976, p. 31) est encore plus restrictif dans la définition de la règle de préservation des composantes principales dans la régression basée sur la variance.



Explication théorique et compréhension



Tout d'abord, obtenons la justification mathématique correcte de l'hypothèse ci-dessus, puis donnons une petite explication pour une meilleure compréhension en utilisant la visualisation géométrique et la modélisation.



Supposons que

Y est la variable de réponse,

X est la matrice d'espace des fonctionnalités

Z est la version standardisée X



Soitλλ>.λpsont les valeurs propres de Z T Z (matrice de corrélation) et V - correspondants des vecteurs propres, alors W = ZV , les colonnes de W représentent les principaux composants Z . La méthode standard utilisée dans la régression en composantes principales est de régresser les m premières composantes principales sur Y , et le problème peut être représenté par le théorème ci-dessous et son explication [2].



Théorème:



Laissez W = (W₁, ..., Wp) - vecteurs propres X . Considérons maintenant le modèle de régression:







Si le vrai vecteur de coefficients de régression β est - codirectionnel avec le j-ième vecteur propre Z T Z , puis dans la régression de Y à W, la j- ième composante principale Wⱼ contribuera à l' apprentissage, tandis que les autres ne contribueront pas , en principe , ...



Preuve : Soit V = (V₁, ..., Vp) - matrice des vecteurs propres de la Z T Z . Then







Since , où sont les coefficients de régression de l'expression.



Si βest codirigé avec le j -ème vecteur propre V , alors Vⱼ = aβ , où a est une valeur scalaire non nulle. Par conséquent, θj = Vⱼᵀβ = aβᵀβ et θᴋ = Vᴋᵀ β = 0, où k ≠ j . Ainsi, le coefficient de régression θᴋ correspondant à Wᴋ est nul, pour k ≠ j , respectivement,







Puisque la variable Wᴋ ne réduit pas la somme des carrés, si son coefficient de régression est 0, alors Wj apportera la contribution principale, tandis que le reste des composantes principales n'apportera aucune contribution.



Signification géométrique et modélisation



Maintenant, simulons et obtenons une représentation géométrique des calculs mathématiques ci-dessus. L'explication est illustrée en modélisant un espace de caractéristiques bidimensionnel (X) et une variable de réponse afin que l'hypothèse puisse être facilement comprise visuellement.





Figure 1: Graphiques unidimensionnels et bidimensionnels pour les variables considérées X1 et X2



Dans la première étape de la modélisation, l'espace des caractéristiques a été modélisé en utilisant une distribution normale multivariée avec une très forte corrélation entre les variables et les composantes principales.





Figure 2: Corrélation de la carte thermique pour PC1 et PC2 (composants principaux)



Il ressort clairement du graphique qu'il n'y a pas de corrélation entre les principales composantes. Lors de la deuxième étape, les valeurs de la variable de réponse Y sont modélisées de sorte que la direction du coefficient Y des composantes principales coïncide avec la direction de la deuxième composante principale.







Après avoir reçu la variable de réponse, la matrice de corrélation ressemblera à ce qui suit.





Figure 3: Carte de chaleur pour la variable Y et PC1 et PC2.



Le graphique montre clairement que la corrélation entre Y et PC2 est plus élevée qu'entre Y et PC1 , ce qui confirme notre hypothèse.





Figure 4: Variance de l'espace des fonctionnalités expliquée par PC1 et PC2.



Puisque la figure montre que PC1explique 95% de la variance de X , puis selon la logique esquissée ci-dessus, il faut ignorer complètement PC2 en régression.



Alors suivons-le et voyons ce qui se passe!





Figure 5. Résultat de la régression avec Y et PC1.



Ainsi , égal à 0 , a dit que malgré le fait que PC1 donne 95% de la variance X , il n'explique toujours pas la variable de réponse.



Maintenant, faisons de même avec PC2 , qui n'explique que 5% de la variance de X , et voyons ce qui se passe.





Figure 6: Résultat de la régression avec Y et PC2.



Yuhu! Il suffit de regarder ce qui est arrivé: le principal élément qui explique 5% de de X de la variance a 72% de de Y de la variance . Il existe également des exemples réels pour étayer de telles situations:



[1] Smith et Campbell (1980) ont donné un exemple de la technologie chimique, où il y avait 9 variables régressives, et où la variance de la huitième composante principale était de 0,06% de la variance totale, ce qui ne serait pas pris en compte en raison de la logique ci-dessus.

[2] Un deuxième exemple a été fourni par Kung et Sharif (1980). Dans une étude de prédiction de la date de début des moussons à l'aide de dix variables météorologiques, seules les huitième, deuxième et dixième composantes étaient significatives. Cet exemple montre que même la composante principale avec la plus petite valeur propre sera la troisième plus significative en termes d'explication de la variabilité de la variable de réponse.



Production



Les exemples ci-dessus montrent qu'il est inapproprié de supprimer les composants principaux avec de petites valeurs propres, car ils n'affectent que l'explicabilité dans l'espace des fonctionnalités, mais pas la variable de réponse. Par conséquent, vous devez conserver tous les composants des techniques de réduction de dimension d'apprentissage supervisé, telles que la régression des moindres carrés partiels et la régression des moindres angles, dont nous parlerons dans les prochains articles.



Sources
[1] Jolliffe, Ian T. “A Note on the Use of Principal Components in Regression.” Journal of the Royal Statistical Society. Series C (Applied Statistics), vol. 31, no. 3, 1982, pp. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Hadi, Ali S., and Robert F. Ling. “Some Cautionary Notes on the Use of Principal Components Regression.” The American Statistician, vol. 52, no. 1, 1998, pp. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] HAWKINS, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Appl. Statist., 22, 275–286

[4] MANSFIELD, E. R., WEBSTER, J. T. and GUNST, R. F. (1977). An analytic variable selection technique for principal component regression. Appl. Statist., 26, 34–40.

[5] MOSTELLER, F. and TUKEY, J. W. (1977). Data Analysis and Regression: A Second Course in Statistics. Reading, Mass.: Addison-Wesley

[6] GUNST, R. F. and MASON, R. L. (1980). Regression Analysis and its Application: A Data-oriented Approach. New York: Marcel Dekker.

[7] JEFFERS, J. N. R. (1967). Two case studies in the application of principal component analysis. Appl. Statist., 16, 225- 236. (1981). Investigation of alternative regressions: some practical examples. The Statistician, 30, 79–88.

[8] KENDALL, M. G. (1957). A Course in Multivariate Analysis. London: Griffin.






En savoir plus sur le cours «Machine Learning. Cours de base » , en plus d'assister à une leçon gratuite , vous pouvez vous inscrire à un webinaire gratuit à ce lien .






Lire la suite:



Entropie: comment les arbres de décision prennent des décisions



All Articles