Prétraitement des données

salut! Je suis développeur Web et je m'intéresse au machine learning depuis plusieurs années maintenant. Parce que dans mon parc de travail quotidien, je dois résoudre des problÚmes qui m'intéressent moins, qui ne sont pas liés à l'apprentissage automatique, de temps en temps j'oublie ce que j'ai lu ou utilisé une fois. Pour me créer un mémo, renforcer mes connaissances et le partager avec d'autres, j'ai décidé d'écrire cette série d'articles sur l'apprentissage automatique. Je vais commencer par le prétraitement des données.



Dans cet article, je parlerai des problÚmes rencontrés avec les données, comment les résoudre, ainsi que des méthodes les plus couramment utilisées pour préparer les données avant de les transmettre à différents modÚles.



Sauts



ConsidĂ©rez l'ensemble de donnĂ©es suivant. Je l'ai honnĂȘtement inventĂ© et j'y ferai rĂ©fĂ©rence plus loin dans cet article.



ID Nom Discipline sportive Un pays Année de naissance de l'athlÚte Poids de l'athlÚte Médaille
1 Ivan Aviron Fédération Russe 1985 265 B
2 Boxe Grande Bretagne 1986 54 S
3 Kim Lutte gréco-romaine Corée du Nord 1986 93 g
4 Oleg Lutte gréco-romaine 1984 B
cinq Pedro Aviron Brésil 97 N
6 Valery Aviron Fédération Russe 2004 97 N


, . . — , . , .



, "" , . , , .



— , - , . , "" "" . , , - - . : , , , .



. , . .



, . , . : , . — , .





:



  • "".


ID
2 1986 54 S


  • .


ID
4 - 1984 B




, :



  • .


ID
4 - 1984 (265 + 54 + 93 + 97 + 97) / 5 = 121.2 B


, " " 1 .



  • . , .


ID
4 - 1984 (54, 93, 97, 97, 265) = 97 B




, . , , . , "" . — ( ).



ID
1 1985 265 B


, , , , . :



jeQR=Q3-Q1,



Q1 — — , 25% . Q3 — — , 75% .



, , , : :



[Q1-1,5jeQR,Q3+1,5jeQR]



.





— . , [0, 1]. , . , . (, , ) .



. , , . , .



Xnew=Xolré-XmjenXmuneX-Xmjen



Z-. Z- :



(-3σ[X],3σ[X]),



σ[X] — X.



Z- .



Xnew=XolrĂ©-M[X]σ[X]



M[X] — X.



, Z- , .



One-hot encoding



. . , " " - . : . . . ( ).



, , ? . , " " 1, "" — 2. . , , . , . .



, , . , "" 4 :



ID _ _ _ _
1 1 0 0 0
2 0 1 0 0
3 0 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0


, , .





, . . , , . . , .



Merci d'avoir lu ou parcouru ici. Je n'ai pas dĂ©crit toutes les mĂ©thodes de prĂ©traitement, et cet article n'est guĂšre utile pour les scientifiques de donnĂ©es professionnels. Cependant, si vous ĂȘtes dĂ©butant et que vous ne savez pas quoi faire de vos donnĂ©es, vous pouvez revenir ici en toute sĂ©curitĂ©. Bonne chance dans vos apprentissages et vos tĂąches intĂ©ressantes!



Liste des sources



Je ne suis pas un scientifique et cet article ne prĂ©tend pas ĂȘtre scientifique. Par consĂ©quent, je ne rĂ©digerai pas de sources selon les GOST. Veuillez m'excuser pour cela.



  1. Cours magistral de Yandex et HSE "Introduction to Machine Learning" sur le curseur.
  2. Standardisation, ou Ă©limination moyenne et mise Ă  l'Ă©chelle de la variance - Documentation de la bibliothĂšque Sklearn
  3. Tùches avancées de préparation des données de machine learning - Microsoft



All Articles