Le meilleur de Kaggle: qu'est-ce que la science des données compétitive et comment y réussir

Bonjour Habr! Dans le blog de notre site Web, nous publions régulièrement des articles sur les données et tout ce qui y est lié. Nous publions des documents d'ici et d'ailleurs.



Comment les entreprises savent-elles quel data scientist est le plus cool quand elles les embauchent? Comment montrer son talent et devenir célèbre dans la communauté? Sur quelle base la notation est-elle formée, sur la base de laquelle vous pouvez ensuite être embauché pour un poste prestigieux? Nous vous parlerons de la plate-forme compétitive la plus célèbre, des possibilités et des règles de son jeu, et vous révélerons également la liste des meilleurs participants de Russie.










La science des données est, par définition, une science. Par conséquent, afin d'évaluer les développeurs et les analystes, l' indice Hirsch , très répandu parmi les scientifiques, est et est appliqué depuis longtemps  . Il aide, par le nombre de publications et leurs citations, à comprendre combien de travail scientifique est demandé - et donc son auteur. 

L'indice de Hirsch h est égal au nombre d'articles dont chacun a été référencé au moins h fois. Autrement dit, pour le calculer, ils prennent tous les articles du scientifique qui ont été cités par ses collègues, les classent par ordre décroissant du nombre de références à eux, en leur attribuant des numéros. Après cela, ils trouvent le dernier article, dont le nombre ne dépasse pas le nombre de citations. Ce nombre est l'indice de Hirsch.
Compliqué? Cela ne semble pas très bon, et les vrais scientifiques des données comprennent tout de suite - tout simplement pas très approprié pour évaluer leur travail. Après tout, le résultat de leur travail est bien plus souvent un code, pas un texte scientifique. En outre, les scientifiques des données sont en demande sur le marché, et le marché est plus important pour les exemples d'algorithmes que pour les réalisations scientifiques. 



Mais souvent, les entreprises gardent secrètes les informations sur leurs employés et leur travail. Les Data Scientists sont particulièrement soigneusement cachés en Russie, où  il y a une  énorme pénurie de personnel dans ce domaine. 



En réponse à la demande, les plateformes compétitives pour les développeurs ont gagné en popularité. Le service le plus connu est Kaggle (prononcé: "cajl"), qui appartient à Google. Les étudiants l' utilisent  et les développeurs professionnels  disentcomment améliorer votre note. Les solutions qui y sont appliquées font la mode parmi les data scientists, et les entreprises en Russie et dans le monde prêtent attention à leur place dans les évaluations de Kaggle lors de l'embauche. 



En 2017,  plus d'un million d'utilisateurs étaient enregistrés dans Kaggle  , et en août 2020, les utilisateurs de Russie ont  googlé le  service presque aussi souvent que l'expression «Big Data»: 







Kaggle est entièrement gratuit et tout utilisateur peut héberger une compétition d'exploration de données ou participer à une compétition existante. Le système héberge des ensembles de  données ouverts et fournit également des outils cloud pour leur traitement et leur apprentissage automatique. Il y a aussi une possibilité d'étudier et une section pour afficher les postes vacants, où les concours aideront également à sélectionner les meilleurs candidats. 



Comment ça fonctionne



L'une des fonctionnalités intéressantes de Kaggle, grâce à laquelle il est devenu si populaire dans l'environnement de la science des données, est  le système de notation



Les utilisateurs peuvent gagner des points et améliorer leur classement dans quatre catégories différentes: 



  • Concurrence.  Seul ou en équipe, vous résolvez des problèmes de machine learning. Les compétitions sont très diverses: d'une tâche simple et directe de prédire le  nombre de survivants sur le Titanic  à l'  évaluation de l'efficacité des joueurs de défense  lors de la lecture d'une passe du NFL Big Data Bowl 2021.
  • Code de programme.  Partagez votre code avec la communauté en l'exécutant sur Kaggle Notebooks, un environnement de cloud computing.
  • Ensembles de données.  Vous pouvez aider d'autres scientifiques des données en partageant de nouvelles données.
  • Discussions.  Discutez des tâches et partagez vos meilleures solutions, et évaluez les publications des autres utilisateurs.


La promotion dans chaque catégorie ne dépend pas des autres. Différents niveaux de réalisations y sont disponibles: 



  • Débutant.  Il vous suffit de vous inscrire.
  • Participant.  Vous avez rempli votre profil et parlé à la communauté, et avez également utilisé toutes les fonctionnalités de la plate-forme:

    - Exécutez un script.

    - Nous avons participé à un concours.

    - Nous avons écrit un commentaire.

    - Nous avons donné une voix à l'un des participants.

  • .  Kaggle . , Kaggle . 
  • .  , Kaggle . «» , .
  • .  . .


Les médailles sont attribuées pour d'excellents résultats dans les compétitions, le code de programme populaire ou un ensemble de données utiles et restent pour toujours. Dans le même temps, les points perdent de leur valeur au fil du temps, ce qui permet au classement général de rester pertinent.



Qui vient en premier?



Surtout, Kaggle a  enregistré des  utilisateurs de l'Inde et des États-Unis. Les Russes occupent une cinquième place stable dans la notation globale des pays - entre la Chine et le Japon. La première place du classement général des concours de  science des données  est occupée par Guanshuo Xu, un data scientist de New York. Pendant cinq ans, il a marqué plus de 255 mille points dans les compétitions de Kaggle (c'est un record absolu).



Guanshuo a obtenu son  diplôme Baccalauréat en génie électrique et électronique de l'Université de Tongji à Shanghai, puis est entré en maîtrise à l'Université du New Jersey. Depuis 2010, il travaille sur la reconnaissance d'images et les algorithmes d'apprentissage automatique, en 2017 il est devenu grand maître chez Kaggle, et depuis 2019 il travaille en tant que Data Scientist chez H2O.ai (Cisco, Intel et PayPal utilisent les algorithmes de cette société). 



Les meilleurs data scientists de Russie selon Kaggle



Pour compiler une liste des meilleurs spécialistes des données en Russie, nous avons utilisé les  données des  participants aux concours Kaggle, qui ont des informations personnelles.



Le  développeur russe le plus fort participant au concours Kaggle  Dmitry Gordeev  ( dott ) travaille également chez H2O.ai. Il s'est inscrit chez Kaggle il y a huit ans et compte 114 000 points aujourd'hui.



Au classement général de Kaggle, il  est classé neuvième... Dmitry est diplômé de l'Université d'État de Moscou en 2010, y faisant de la reconnaissance d'images et de l'exploration de données. Ayant travaillé dans le groupe de modélisation des risques de détail dans une banque depuis 2008, il est devenu directeur de division et a déménagé en Autriche en 2013. En 2014, il a suivi un cours de science des données sur Coursera, et en 2020, il a rejoint l'  équipe  de H2O.ai.



À la  deuxième place  parmi le scientifique russe des données dans les compétitions de notation Kaggle - Arthur Kuzin ( n01z3 ) - il prend la 28e place du classement général de Kaggle, avec plus de 71 mille points. 



Arthur est diplômé de l'Institut de physique et de technologie de Moscou en 2011 et a travaillé dans l'analyse de la recherche de 2008 à 2016. Après cela, il a obtenu un emploi chez Avito en tant que Data Scientist et, ces dernières années, il a dirigé l'équipe de vision par ordinateur chez X5 Retail Group. Arthur a  plusieurs publications de  physique et un brevet pour un dispositif d'étalonnage de microscopes électroniques à transmission.



La troisième place  du classement général des compétitions Kaggle chez les Russes est prise par Artem Kulakov ( Art) - au classement général, il est 29e et 71 mille points Kaggle, qu'il a gagnés en deux ans de participation à la compétition. Artem étudie à l'École supérieure d'économie avec un diplôme en informatique et a déjà travaillé comme analyste de données à Tinkoff Bank et Megafon. Artem est actuellement indépendant et se spécialise dans les tâches de vision par ordinateur et de PNL.



À la quatrième place se trouve Roman Soloviev ( ZFTurbo ) - il a 69 mille points et 31e au classement général des compétitions Kaggle. Roman est l'un des principaux chercheurs de l'Institut des problèmes de conception en microélectronique de l'Académie des sciences de Russie.



En cinquième place est  Ilya Larchenko ( ilialar), actuellement 37e au classement général de Kaggle avec 65 000 points. Ilya est diplômé de l'Institut de physique et de technologie de Moscou en 2014, puis a travaillé comme analyste et développeur. Depuis 2017, il  dirige  l'équipe de data scientist chez DOC +, et en 2020, il s'installe en Thaïlande, où il travaille en tant que Data Science Manager chez Agoda. 



Un petit élément de gamification qui permet aux utilisateurs de gagner des points et des médailles dans les compétitions Kaggle a changé le jeu du recrutement. 



L'exemple des meilleurs data scientists de Russie montre que l'éducation et l'expérience de travail avec les données ne sont pas si importantes pour bâtir une carrière réussie. Par exemple, Artem Kulakov étudie toujours à l'université et il a commencé à participer à des concours à Kaggle il y a seulement deux ans. Il figure désormais sur la liste des meilleurs data scientists de Russie et travaille comme pigiste. Guangshuo Xu a obtenu un baccalauréat en génie électrique et électronique et travaille maintenant chez H2O.ai, un leader des solutions de science des données open source.



Commencez par des tâches simples aujourd'hui - et qui sait, peut-être que dans un an ou deux, vous serez dans le classement des meilleurs data scientists et progresserez en mettant en œuvre des technologies de  recherche sur le VIH , des modèles pour  prédire la congestion des routes et beaucoup plus. L'essentiel est d'avoir l'envie de se développer dans le domaine de la Data Science et de pratiquer le plus possible. 



image






Articles recommandés






All Articles