salut! Je suis développeur Web et je m'intéresse au machine learning depuis plusieurs années maintenant. Parce que dans mon parc de travail quotidien, je dois résoudre des problÚmes qui m'intéressent moins, qui ne sont pas liés à l'apprentissage automatique, de temps en temps j'oublie ce que j'ai lu ou utilisé une fois. Pour me créer un mémo, renforcer mes connaissances et le partager avec d'autres, j'ai décidé d'écrire cette série d'articles sur l'apprentissage automatique. Je vais commencer par le prétraitement des données.
Dans cet article, je parlerai des problÚmes rencontrés avec les données, comment les résoudre, ainsi que des méthodes les plus couramment utilisées pour préparer les données avant de les transmettre à différents modÚles.
Sauts
ConsidĂ©rez l'ensemble de donnĂ©es suivant. Je l'ai honnĂȘtement inventĂ© et j'y ferai rĂ©fĂ©rence plus loin dans cet article.
ID | Nom | Discipline sportive | Un pays | Année de naissance de l'athlÚte | Poids de l'athlÚte | Médaille |
---|---|---|---|---|---|---|
1 | Ivan | Aviron | Fédération Russe | 1985 | 265 | B |
2 | Boxe | Grande Bretagne | 1986 | 54 | S | |
3 | Kim | Lutte gréco-romaine | Corée du Nord | 1986 | 93 | g |
4 | Oleg | Lutte gréco-romaine | 1984 | B | ||
cinq | Pedro | Aviron | Brésil | 97 | N | |
6 | Valery | Aviron | Fédération Russe | 2004 | 97 | N |
, . . â , . , .
, "" , . , , .
â , - , . , "" "" . , , - - . : , , , .
. , . .
, . , . : , . â , .
:
- "".
ID | ||||||
---|---|---|---|---|---|---|
2 | 1986 | 54 | S |
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | B |
, :
- .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (265 + 54 + 93 + 97 + 97) / 5 = 121.2 | B |
, " " 1 .
- . , .
ID | ||||||
---|---|---|---|---|---|---|
4 | - | 1984 | (54, 93, 97, 97, 265) = 97 | B |
, . , , . , "" . â ( ).
ID | ||||||
---|---|---|---|---|---|---|
1 | 1985 | 265 | B |
, , , , . :
â â , 25% . â â , 75% .
, , , : :
.
â . , [0, 1]. , . , . (, , ) .
. , , . , .
Z-. Z- :
â X.
Z- .
M[X] â X.
, Z- , .
One-hot encoding
. . , " " - . : . . . ( ).
, , ? . , " " 1, "" â 2. . , , . , . .
, , . , "" 4 :
ID | _ | _ | _ | _ | ||
---|---|---|---|---|---|---|
1 | 1 | 0 | 0 | 0 | ||
2 | 0 | 1 | 0 | 0 | ||
3 | 0 | 0 | 0 | 1 | 0 | |
4 | 1 | 0 | 0 | 0 | ||
5 | 0 | 0 | 0 | 1 | ||
6 | 1 | 0 | 0 | 0 |
, , .
, . . , , . . , .
Merci d'avoir lu ou parcouru ici. Je n'ai pas dĂ©crit toutes les mĂ©thodes de prĂ©traitement, et cet article n'est guĂšre utile pour les scientifiques de donnĂ©es professionnels. Cependant, si vous ĂȘtes dĂ©butant et que vous ne savez pas quoi faire de vos donnĂ©es, vous pouvez revenir ici en toute sĂ©curitĂ©. Bonne chance dans vos apprentissages et vos tĂąches intĂ©ressantes!
Liste des sources
Je ne suis pas un scientifique et cet article ne prĂ©tend pas ĂȘtre scientifique. Par consĂ©quent, je ne rĂ©digerai pas de sources selon les GOST. Veuillez m'excuser pour cela.