Les principales tendances de la Data Science en 2020, qui seront pertinentes en 2021

Bonjour Habr! Aujourd'hui, je vais vous raconter comment le domaine de la Data Science se développe. 2020 est devenu un tournant non seulement pour le monde dans son ensemble, la sphère des données s'améliore activement et aujourd'hui, nous pouvons déjà résumer les résultats de l'année. Découvrez les tendances DS en 2020-2021.







J'ai créé KDPV, puis je l'ai traité à l'aide d'un réseau neuronal. Qui a reconnu le film - ce type! :-)




IA et réseaux de neurones



L'intelligence artificielle a encore des difficultés avec le test de Turing, mais il y a des succès dans ce domaine.


En mai 2020, l'équipe d'OpenAI a publié le nouvel algorithme de traitement du langage naturel GPT-3. C'est, sans aucun doute, le meilleur algorithme disponible aujourd'hui à cet effet.



Les améliorations du système par rapport à la version précédente de GPT-2 sont énormes. Le nombre de paramètres d'algorithme a été multiplié par plus de 100. GPT-3 utilise 175 milliards de paramètres, alors que GPT-2 n'en utilisait que 1,5 milliard.







Et si auparavant un réseau de neurones pouvait générer du texte qui ressemblait à peu près à un humain, ses capacités sont maintenant beaucoup plus larges.



Un étudiant de son compte Apolos a publié des articles écrits par GPT-3. Pas très difficile, à la manière d'un entraîneur motivationnel. Et seul un lecteur sur des dizaines de milliers soupçonnait que les articles n'étaient pas écrits par une personne.







En fait, c'est pourquoi OpenAI ne publie pas l'algorithme pour un accès gratuit - il peut simplement enterrer Internet sous les avalanches de fausses nouvelles.



Les avantages potentiels de GPT-3 sont énormes. De la création d'une nouvelle génération d'assistants vocaux au développement de mécanismes de jeu adaptatifs qui porteront le RPG à un tout autre niveau.



Au fait, avez-vous essayé AI Dungeon , un jeu textuel joué par GPT-3? Sinon, essayez-le, c'est une expérience très intéressante. Cet article décrit l'une de ces expériences.


Intelligence décisionnelle



La science de la décision est une discipline assez récente qui étudie les théories scientifiques sur la prise de décision. Pour que les décisions ne soient pas prises sur la base de l'expérience subjective ou des sentiments du décideur, mais à travers l'analyse et la comparaison des données.



DI vous permet d'automatiser la prise de décisions de routine et opérationnelles, en déchargeant le décideur.



InferVision, Alpha Go, 2015 , 2020 . , . . 10 30 .



InferVision, 5 . , . . , , , .



L'intelligence décisionnelle est basée sur l'IA et le deep learning. InferVision, par exemple, s'est entraîné sur 100 000 cas.



Bien sûr, avec le développement actuel de la technologie, l'IA ne peut toujours pas prendre de meilleures décisions objectivement dans des systèmes avec plusieurs variantes. Il manque tout simplement de la puissance et des données d'entrée pour l'analyse. Mais dans de nombreux moments, cela vous permet d'exclure l'impulsivité d'une personne, ses préjugés et ses erreurs de pensée banales. Et aussi pour automatiser les processus de prise de décision de routine et faire gagner du temps à un spécialiste pour résoudre des problèmes complexes.



Analyse cloud



Les systèmes d'analyse du cloud existaient auparavant, mais en 2020, la dynamique de leur développement s'est considérablement accrue.



L'analyse du cloud simplifie le processus d'utilisation de grands ensembles de données fréquemment mis à jour. Un système d'analyse unifié pour toutes les divisions de l'entreprise permet de mettre à jour les résultats d'analyse et d'accélérer leur utilisation.



L'analyse en temps réel est la prochaine étape pour de nombreuses entreprises. Mieux vaut fonctionner avec des résultats d'analyse à chaud qui ont été effectués il y a quelques secondes. Après tout, l'analyse faite hier peut déjà être inexacte.



L'analyse cloud est un outil prometteur pour les géants des affaires qui ont des départements d'analyse dans chaque branche. Par conséquent, de grandes entreprises telles qu'IBM sont aujourd'hui étroitement engagées dans le développement de tels systèmes.



Marchés de données



Analyses liées au cloud, mais un phénomène distinct. 



La qualité des données est essentielle pour l'analyse. Si une startup n'a pas la possibilité de mener des études marketing mondiales, elle court le risque de bouger à l'aveuglette, sans connaître les besoins réels du public cible. 



Mais maintenant, les analyses peuvent être achetées. Les marchés de données sont des marchés de l'information à part entière. Le célèbre Statista est l'un des premiers marchés de ce type, mais maintenant, l'industrie se développe à un rythme effréné.



Naturellement, personne ne vend de données personnelles (du moins légalement). Les noms et prénoms, adresses résidentielles, numéros de téléphone et e-mail sont protégés par la loi. Mais les données anonymisées peuvent être vendues. Et il y a beaucoup de choses utiles pour les affaires. Âge et sexe, statut social, préférences, sphère de travail, loisirs, nationalité et des centaines d'autres paramètres que vous laissez sur le réseau, jusqu'au choix des gadgets sur iOS ou Android. Nous nous souvenons de la vieille vérité - si quelque chose sur le réseau est gratuit, alors peut-être que vous êtes vous-même le paiement.


Le marché du Big Data en 2020 est de 138,9 milliards de dollars. Les experts prévoient qu'il atteindra 229,4 milliards d'ici 2025. C'est une échelle colossale, dans laquelle la part du lion sera occupée par la vente d'informations et non par l'exploitation minière.



Blockchain dans l'analyse



Le battage médiatique de la blockchain a déjà un peu disparu. En 2017, seuls les paresseux ne voulaient pas lancer leur propre crypto-monnaie, et en 2020 la blockchain est utilisée à des fins plus pragmatiques.



La combinaison de la blockchain et du big data s'appelle l'union parfaite. La blockchain se concentre sur l'extraction et l'enregistrement de données fiables, la science des données analyse de grandes quantités de données pour trouver des modèles de développement et faire des prédictions.



Le Big Data est la quantité et la blockchain est la qualité.

L'intégration de la blockchain dans l'analyse Big Data présente de nombreux avantages potentiels:



  • Améliorer la sécurité des données et des résultats d'analyse.

  • Maintenir une intégrité maximale des données.

  • Empêcher l'utilisation de fausses données.

  • Analyse en temps réel. 

  • Améliorer la qualité des mégadonnées.



Blockchain pour KYC (connaissez vos clients). La technologie est utilisée par les banques et les agences gouvernementales. Mais comme il n'y a pas de stockage de données commun entre différentes organisations, chacune d'elles doit être identifiée séparément. La blockchain résout ce problème. 



La plateforme Nexleger de Samsung , lancée en Corée, simplifie ce schéma. Il suffit maintenant de passer par la procédure d'identification complète dans une seule banque ou organisation. Si vous avez besoin de créer un compte bancaire, qui est inclus dans le système de projet, cela peut être fait en quelques minutes. Maintenant, tous les cercles de l'enfer bureaucratique n'ont besoin de passer qu'une seule fois - c'est tout.


Bases de données graphiques



Ce n'est pas le type de SGBD le plus populaire et le plus répandu. Il est spécialement conçu pour stocker des topologies qui incluent des nœuds et leurs relations. Ce n'est pas seulement un ensemble de données au format de table classique. Leur essence même est différente.



Les graphiques sont basés sur les relations entre les entités et non sur les entités elles-mêmes.











Et ce n'est qu'un klondike pour le marketing. Après tout, l'analyse de la base de données de graphiques peut être utilisée pour analyser les leaders d'opinion et les influenceurs sur les réseaux sociaux, personnaliser les publicités, les programmes de fidélité, analyser les campagnes virales, améliorer le référencement, et bien plus encore.



Les graphiques vous permettent d'analyser des structures hiérarchiques complexes qui seraient problématiques à modéliser à l'aide de bases de données relationnelles.



En 2020, l'analyse graphique a été activement utilisée pour suivre la propagation du virus en Chine et au-delà. L'étude est basée sur des données dynamiques de 200 pays, ce qui permet de prédire l'évolution future de la situation mondiale et de prendre des mesures pour en atténuer les conséquences. Si vous êtes intéressé, l'étude complète est ici .


En 2020, l'intérêt pour les SGBD graphiques a considérablement augmenté. Ils sont utilisés par Ebay, Airbnb, IBM, Adobe, NBC News et des dizaines d'autres grandes entreprises. Et les spécialistes qui savent bien travailler avec les bases de données graphiques valent leur pesant d'or.



Python en science des données



Python continue de capturer le marché mondial de l'analyse et du développement. Et sa position ne fait que se renforcer. Vous pouvez en savoir plus dans cet article .



Dans le classement PYPL, Python, qui analyse Google Trends, est en tête avec confiance. 



Python se classe deuxième dans le classement GitHub pour le nombre de pull requests: 15,9% du nombre total de toutes les pull requests. A titre de comparaison, le langage R, avec lequel Python est toujours en concurrence dans l'analyse, est déjà à la 33e place, et il ne représente que 0,09% des pull requests. 



Des experts ayant des compétences Python en analyse sont davantage nécessaires. Nous avons récemment analysé le marché du travail de la science des données en Russie et avons constaté que la connaissance de Python est nécessaire dans 81% des postes vacants, mais que R (sans Python) n'est requis que dans 3% des cas.



R reste un bon langage d'analyse, mais Python a presque complètement conquis le marché. Si en 2012 ils occupaient à peu près la même position, désormais le leadership de Python est indéniable. Et cela doit être pris en compte.



2020 a apporté beaucoup de nouveautés à la science des données, car le domaine de l'analyse des mégadonnées lui-même se développe actuellement activement. Bien sûr, ce sont loin de toutes les tendances qui méritent d'être mentionnées. Et une question distincte pour les scientifiques des données - quelles tendances professionnelles ont le plus influencé votre travail cette année? Nous sommes très intéressés à entendre.



image













All Articles