Cet article est ad hoc. La derniÚre fois, j'ai examiné les nuances et les défis des différentes méthodes de normalisation des données. Et ce n'est qu'aprÚs la publication que j'ai réalisé que je n'avais pas mentionné certains détails importants. Pour certains, elles sembleront évidentes, mais, à mon avis, il vaut mieux en parler explicitement.
Normalisation des données catégorielles
Afin de ne pas encombrer le texte avec des éléments de base, je suppose que vous savez ce que sont les données catégorielles et ordinales, et en quoi elles diffÚrent des autres.
Evidemment, toute normalisation ne peut ĂȘtre effectuĂ©e que sur des donnĂ©es numĂ©riques. En consĂ©quence, si seuls les nombres conviennent Ă votre algorithme / programme pour un travail ultĂ©rieur, il est alors nĂ©cessaire de convertir tous les autres types en eux.
Les données catégoriques sont simples. Si le but n'est pas seulement d'encoder (crypter) les valeurs avec des nombres, alors la seule option disponible est de les représenter sous forme de valeurs «1» - «0» (OUI - NON) pour chaque catégorie possible. C'est le soi-disant encodage à chaud . Quand, au lieu d'une caractéristique catégorielle, autant de nouvelles caractéristiques «booléennes» apparaissent qu'il y a de catégories possibles.
Et c'est tout.
, .
, , .
, /ââ , â . . .
, , , , ââ ââ. â â, , ââ . , , â .
, - , « , 0 1». , . , .
. ââ ( ) . , . .
1. . ( ). ( ) , , , . , , .
2. ( ). , ââ .
, , . â , , , .
â ..
ââ
, , . , .
. ââ , . ââ .
. , , , . â , , , ( ). .
ââ , ââ. .
. . , , 100 , 100 . 100 .
,
. ââ , , . - , .
ââ ( ) ââ .
, , ââ. .
ââ ââ .
. /, . â-â ( ), â-â ( ). , - , â-â , â-â.
. . ââ .
, , (- ), â-â, , â-â, . .. ââ.
, ââ, .
, â - , . - .
P.S. â , - AdjustedScaler, ââ .