salut! C'est Pyotr Lukyanchenko (PetrPavlovitch). Ma liste de contrôle est un recueil de pensées qui se sont développées au fil des années, pleines de bosses et d'erreurs.
1. Exposé du problème
Vérifiez toujours le problème que vous souhaitez compter. Qu'est ce que tu vas faire? Pour classer quelque chose? Calculer? Une compréhension claire de la tâche déterminera votre prochaine action.
2. Données (Garbage In = Garbage Out)
Assurez-vous toujours qu'il n'y a pas de doublons dans les données. L'expression «Garbage In = Garbage Out» signifie que si les données sont collectées d'une manière ou d'une autre, le résultat se révélera d'une manière ou d'une autre. En passant, c'est pourquoi il existe une profession distincte d'ingénieur de données - des spécialistes qui, souvent avec un travail héroïque, nettoient des données tout simplement dégoûtantes. Ils savent comment identifier les écarts, les supprimer, les corriger, afin que les analystes ultérieurs puissent travailler avec des ensembles de données de haute qualité.
3. Domaine thématique
Connaissez toujours le domaine dans lequel vous construisez votre régression. Cela aidera à tester les hypothèses de réalisme. Et grâce à cette compréhension, vous éviterez l'effort inutile de compter les régressions stupides de la série «Comment la vitesse de fonte des glaciers affecte la croissance de la population de lapins en Australie».
4. Logique du modèle
Vous ne pouvez pas travailler sans logique. Comprendre la logique du modèle, savoir s'il y a logique dans cette relation est très important. Dans ce cas, le résultat obtenu peut même être de haute qualité, mais en même temps il ne peut pas être interprété. Par conséquent, s'il semble qu'il n'y a pas de logique, il vaut mieux ne pas compter la régression, car dans ce cas, cela se révélera être de la stupidité, ce qui conduira à de nouvelles décisions erronées.
5. Les métriques du test sont plus importantes que les métriques de la formation
Lorsque nous entraînons la régression, nous utilisons une métrique pour nous entraîner. Ceci est une métrique MSE ou une alternative. Et lorsque nous avons compté de nombreuses régressions, nous pouvons les comparer les unes aux autres. La métrique R-carré est déjà utilisée ici.
La métrique d'entraînement à la régression et la métrique d'évaluation de la régression (test) sont deux métriques différentes. Et si un modèle a bien appris, cela ne veut pas dire qu'il sera bien testé. Chacune de ces mesures doit être soigneusement et correctement sélectionnée.
6 Plus la régression est simple, mieux elle fonctionnera
Et plus la régression est difficile, plus il y a de chances que quelque chose se passe mal.
7. Mieux vaut une bonne régression maintenant que parfaite une heure plus tard
Si vous avez trouvé une bonne solution de régression, mieux vaut s'arrêter là. N'essayez pas de faire quelque chose de parfait, de super précis. Parfois, essayer de s'améliorer peut en fait empirer. Oui, vous voulez réaliser 100 prédictions, mais dans la vraie vie, il n'y a pas de qualité à 100%. Même les meilleures mesures de qualité sur Kaggle sont de 96 à 98%.
Maintenant, dans l'étalonnage des modèles, il y a beaucoup de travail intellectuel manuel qui nécessite certaines compétences d'un spécialiste. Oui, nous aspirons tous à l'auto-ML, c'est-à-dire Sélection automatique du meilleur modèle par Python. Mais jusqu'à présent, il s'agit d'un état inaccessible, et sans comprendre l'appareil mathématique, il est impossible de choisir le bon modèle. Imaginez que vous obtenez une série chronologique similaire au graphique ci-dessous, et que l'on vous demande "Veuillez prévoir ...".
À une telle date, vous pouvez créer un grand nombre de régressions différentes, où chacune donnera sa propre prévision. Voici comment choisir les meilleures prévisions, comment identifier les valeurs aberrantes dans les données et bien d'autres choses pratiques que nous abordons dans le cours avancé Mathématiques pour la science des données .
Par conséquent, si vous travaillez déjà ou allez simplement évoluer dans le domaine de la science des données, mais que vous connaissez les mathématiques au niveau de «passé quelque chose à l'institut», vous obtiendrez ici toutes les compétences manquantes.
Vous pouvez trouver des informations encore plus utiles dans la chaîne de télégramme de l' auteur de Peter .