La science des données est un amplificateur de réflexion, d'intuition et d'inspiration

image




Une des premières technologies au monde pour stocker et échanger des données.



Au 19e siècle, les médecins pouvaient prescrire du mercure pour les sautes d'humeur et de l'arsenic pour l'asthme. Il ne leur était peut-être pas venu à l'esprit de se laver les mains avant la chirurgie. Bien sûr, ils n'ont essayé de tuer personne - ils ne savaient tout simplement pas qu'il y avait des méthodes plus appropriées.



Ces premiers médecins avaient des données précieuses griffonnées sur leurs cahiers, mais chacun ne voyait qu'une seule pièce d'un grand puzzle. Sans outils modernes d'échange et d'analyse de l'information (ainsi que de la science pour donner un sens à ces données), rien ne pourrait empêcher la superstition d'influencer ce que l'on peut voir à travers le «trou de la serrure» des faits observés.



Les humains ont parcouru un long chemin avec la technologie depuis lors, mais l'essor actuel de l'apprentissage automatique et de l'intelligence artificielle n'est pas déconnecté du passé. Tout cela est une continuation de l'instinct humain de base - comprendre le monde qui nous entoure. Cet instinct est nécessaire pour que nous puissions prendre des décisions plus intelligentes. Et nous avons maintenant une technologie nettement meilleure que jamais.



Une façon de décrire ce modèle qui s'est perpétué à travers les âges est de le considérer comme une révolution dans les ensembles de données, et non comme des unités de données. La différence n'est pas anodine. Des quantités massives de données ont contribué à façonner le monde moderne. Considérez les scribes sumériens (l'Irak moderne) qui ont pressé leurs stylets sur des plaques d'argile il y a plus de 5000 ans. Quand ils l'ont fait, ils ont non seulement inventé le premier système d'écriture, mais aussi la première technologie de stockage et d'échange de données.



Si vous êtes inspiré par la promesse que l'IA peut surpasser les capacités humaines, pensez à la papeterie pour nous donner des souvenirs surhumains. S'il est aujourd'hui facile de prendre l'enregistrement des informations pour acquis, la possibilité de stocker en toute sécurité des ensembles de données représente un premier pas révolutionnaire vers une intelligence supérieure.



Malheureusement, extraire des informations des dalles d'argile et de leurs homologues pré-électroniques est une douleur. Vous ne pouvez pas cliquer avec votre doigt sur un livre pour compter le nombre de mots qu'il contient. Au lieu de cela, vous devez charger chaque mot dans votre cerveau pour le traiter. Des problèmes comme ceux-ci ont rendu l'analyse précoce des données laborieuse, de sorte que les premières tentatives sont restées bloquées très tôt. Si le royaume pouvait analyser les recettes fiscales, seule une âme intrépide pouvait tenter de raisonner aussi efficacement dans un domaine comme la médecine, où une tradition millénaire encourageait l'improvisation.



image



Heureusement, la race humaine a produit d'incroyables pionniers. Par exemple, la carte des décès de John Snow, compilée lors de l'épidémie de choléra à Londres en 1858, a incité les médecins à reconsidérer la superstition selon laquelle la maladie était causée par un miasme (air toxique) et à prêter attention à l'eau potable.



image



Si vous connaissez La Dame à la lampe, Florence Nightingale, pour sa compassion héroïque d'infirmière, vous serez peut-être surpris d'apprendre qu'elle a également été une pionnière de l'analyse. Son infographie inventive pendant la guerre de Crimée a sauvé de nombreuses vies car elle identifiait les problèmes d'hygiène comme la principale cause de décès à l'hôpital, et c'est cette infographie qui a incité le gouvernement à prêter attention à l'assainissement.



image



L'ère des ensembles de données uniformes a émergé alors que la valeur de l'information commençait à s'affirmer dans de plus en plus de domaines, conduisant à l'avènement des ordinateurs. Et il ne s'agit pas du copain électronique auquel vous êtes habitué aujourd'hui. L '«ordinateur» (calculatrice) est né comme une profession humaine, lorsque des employés spéciaux effectuaient des calculs et traitaient les données manuellement afin d'évaluer leur importance.



image



Ces gens étaient tous des ordinateurs! Photo prise dans les années 1950 par le personnel du tunnel à pression supersonique .



La beauté des données est qu'elles vous permettent de façonner le jugement à partir de quelque chose de plus significatif que le vide. En regardant les données, vous êtes inspiré pour poser de nouvelles questions, en suivant les traces de Florence Nightingale et Jon Snow. C'est la discipline de l'analytique: inspirer des modèles et des hypothèses par la recherche.



Des ensembles de données au partitionnement des données



Au début du XXe siècle, la volonté de prendre de meilleures décisions face à l'incertitude a conduit à la naissance d'une profession parallèle: la statistique. Les statisticiens aident à vérifier s'il est raisonnable de se comporter conformément au phénomène que l'analyste a découvert dans l'ensemble de données actuel (et au-delà).



Un exemple célèbre est celui de Ronald A. Fisher, qui a développé le premier manuel de statistiques au monde. Fisher décrit l'exécution d'un test d'hypothèse en réponse à l'affirmation de son ami selon laquelle il pouvait déterminer si du lait était ajouté au thé avant ou après l'eau. Espérant prouver que ce n'était pas vrai, sur la base des données, il a dû conclure que son ami aurait vraiment pu le faire.



L'analyse et les statistiques ont un gros talon d'Achille: si vous utilisez la même donnée pour générer une hypothèse et la tester, alors vous trichez. La rigueur des statistiques vous oblige à déclarer vos intentions avant de prendre les mesures appropriées. L'analyse est plus un jeu rétrospectif étendu. L'analyse et les statistiques étaient d'une incompatibilité frustrante jusqu'à ce que la prochaine grande révolution (le partage de données) change tout.



Partager des données est une idée simple, mais c'est l'une des idées les plus importantes pour les scientifiques comme moi. Si vous n'avez qu'un seul ensemble de données, vous devez choisir entre l'analyse (inspiration non étayée) et les statistiques (inférences fortes). Vous voulez un truc? Divisez votre jeu de données en deux et vous avez à la fois les loups nourris et les moutons en sécurité!



L'ère des deux ensembles de données supprime la tension entre l'analyse et les statistiques et introduit un travail coordonné entre deux types différents de data scientists. Les analystes utilisent un ensemble de données pour vous aider à formuler des questions, et les statisticiens utilisent un ensemble de données différent pour fournir des réponses solides.



Ce luxe impose des exigences strictes sur la quantité de données. Il est plus facile de parler de séparation que de la mettre en œuvre. Vous savez de quoi il s'agit si vous avez essayé de collecter suffisamment d'informations pour au moins un ensemble de données décent. L'ère des doubles ensembles de données est un nouveau développement qui va de pair avec un meilleur équipement de traitement des données, des coûts de stockage inférieurs et la possibilité de partager les informations collectées sur Internet.



En fait, les innovations technologiques qui ont conduit à l'ère des ensembles de données doubles ont rapidement ouvert la voie à l'étape suivante - l'ère des ensembles de données automatiques à trois.



Il existe un terme plus familier pour cela: l'apprentissage automatique.



L'utilisation d'un jeu de données détruit sa pureté en tant que source de rigueur statistique. Vous n'avez qu'une seule chance, alors comment savoir quelle analyse analytique vaut le plus la peine d'être testée? Si vous avez un troisième ensemble de données, vous pouvez l'utiliser pour faire un essai routier de votre idée. Ce processus s'appelle la validation et est au cœur de ce qui fait fonctionner le machine learning.



Une fois que vous êtes libre de tout tester et de voir des idées solides, vous pouvez faire confiance à n'importe qui pour trouver une solution: des analystes expérimentés, des stagiaires, des feuilles de thé pour la bonne aventure et même des algorithmes qui fonctionnent hors contexte sur votre problème commercial. La solution la plus performante dans le processus de validation deviendra candidate au test statistique approprié. Vous venez de vous donner la possibilité d'automatiser l'inspiration!



Inspiration automatisée



C'est pourquoi l'apprentissage automatique révolutionne les ensembles de données, pas seulement les données. Tout est question de luxe d'avoir suffisamment de données pour une partition à trois voies.



Comment l'IA s'intègre-t-elle dans cette image? L'apprentissage automatique avec des réseaux de neurones multicouches est techniquement appelé apprentissage profond, mais il a reçu un autre surnom qui est resté dans la parole: l'IA. Alors que l'intelligence artificielle avait autrefois une signification différente, elle est aujourd'hui très probablement utilisée comme synonyme d'apprentissage en profondeur.



Les réseaux de neurones profonds ont créé un buzz en battant les algorithmes traditionnels d'apprentissage automatique sur une multitude de problèmes complexes. Cependant, ils nécessitent beaucoup plus de données pour les former, et les exigences en matière de capacités de traitement de données dépassent les capacités d'un ordinateur portable conventionnel. C'est pourquoi l'émergence de l'IA moderne est associée aux technologies cloud. La technologie cloud vous permet de louer le centre de données de quelqu'un d'autre au lieu d'assembler vous-même l'équipement, vous pouvez donc essayer les technologies d'IA modernes avant de commencer à investir dans celles-ci.



Avec cette pièce du puzzle, nous avons un ensemble complet de professions: experts en apprentissage automatique et en IA, analystes et statisticiens. Le terme général qui décrit chacun d'eux est un expert en Data Science, la science qui rend les données utiles.



La science des données est le produit de notre ère de triples ensembles de données. De nombreuses industries de l'industrie d'aujourd'hui génèrent régulièrement plus de données qu'assez. Une approche à quatre ensembles de données est-elle donc possible?



Quelle est la prochaine étape si le modèle que vous venez de former affiche des valeurs de validation faibles? Si vous vous comportez comme la plupart des gens, vous exigerez immédiatement d'en découvrir la raison! Malheureusement, aucun ensemble de données ne peut répondre à votre question. Vous pourriez être tenté de fouiller dans votre ensemble de données de validation, mais hélas, le débogage cassera sa capacité à valider efficacement vos modèles.



En analysant votre ensemble de données de validation, vous transformez essentiellement trois ensembles de données en deux. Au lieu de faire quelque chose d'utile, vous êtes involontairement retourné dans le passé!



La solution se situe en dehors des trois ensembles de données que vous utilisez déjà. Pour arriver à des itérations d'apprentissage plus intelligentes et à des réglages hyperparamétriques, vous voudrez vous rapprocher des meilleures pratiques: l'ère des quatre ensembles de données.



En supposant que trois ensembles de données vous fournissent de l'inspiration, des itérations d'apprentissage et des tests rigoureux, le quatrième accélérera votre cycle de développement de l'IA avec des analyses avancées qui fournissent un aperçu des approches qui peuvent être essayées à chaque itération. En utilisant le partage de données à quatre voies, vous pouvez profiter de l'abondance de données! Bienvenue dans le futur.



image



Découvrez comment obtenir une profession de haut niveau à partir de zéro ou augmenter vos compétences et votre salaire en suivant les cours en ligne rémunérés de SkillFactory:











All Articles