Dans cet article, je souhaite partager mon expérience d'une carrière scientifique dans le domaine de la Data Science, accumulée depuis un an et demi.
C'est mon premier article sur Medium, donc j'aimerais parler de moi et de mes expériences précédentes. Je suis doctorant en génie de l'environnement et informatique à l'Université de Harvard, et je travaille également en tant que consultant en apprentissage automatique et blockchain pour la société de conseil en intelligence artificielle basée au Royaume-Uni Critical Future. Ma recherche se concentre sur l'introduction de l'apprentissage automatique et de l'intelligence artificielle dans les sciences de l'environnement à l'aide de systèmes sensoriels basés sur des drones capables de s'auto-propulser pour cartographier la chimie de la basse atmosphère, principalement dans la forêt amazonienne (pour ceux qui s'intéressent à ce projet, Je publierai prochainement des articles séparés sur ce sujet).
J'ai commencé mon parcours de doctorat à l'Université Harvard à l'automne 2017 avec un BA et une MA en génie mécanique de l'Imperial College de Londres et j'ai terminé ma dernière année à l'étranger à l'Université nationale de Singapour. Au cours de mes études de premier cycle, je n'étais pas très familier avec la science des données et les statistiques en général, mais en même temps, je connaissais beaucoup la programmation en Matlab, C et Visual Basic, et j'avais également une solide formation en mathématiques.
Avant de commencer à Harvard, je n'avais jamais programmé en Python, ni même entendu parler de R. Je n'avais jamais fait de calcul parallèle, jamais créé de clusters, et l'apprentissage automatique et l'intelligence artificielle étaient des choses dont j'entendais généralement parler. des romans et films dystopiques.
Participer à un programme d'informatique et d'apprentissage automatique à Harvard avec une expérience aussi modeste était comme escalader une falaise abrupte (épuisante et fragile). Cependant, c'est Harvard, vous ne pouvez donc pas vous attendre à moins. Le programme de doctorat de Harvard nécessite 10 cours, dont 8 sont généralement de maîtrise. Ils peuvent être complétés à votre rythme, mais vous devez les terminer avant l'obtention du diplôme, ce qui prend en moyenne 5 ans. Les étudiants sont encouragés à terminer tous les cours dans les deux premières années, après quoi ils peuvent obtenir leur diplôme de maîtrise (officiellement gratuit). À la fin du semestre de printemps 2019, je répondrai à ces exigences et recevrai mon diplôme, après quoi je me concentrerai exclusivement sur la recherche.
À l'automne 2018, Harvard a lancé le tout premier groupe d'étudiants pour un programme de maîtrise en science des données. Il s'agit d'un programme de deux ans comprenant des cours de base en science des données, en éthique et en mathématiques appliquées, en informatique et en cours optionnels en statistique / économie. Arrivant un an avant tous ces étudiants, je serai l'un des premiers à remplir les prérequis de base pour ce programme, me donnant une expérience unique en termes d'efficacité de mon diplôme en Data Science.
Au cours des 18 derniers mois, j'ai suivi un certain nombre de cours. L'un des premiers était CS205: Parallel Computing, où j'ai d'abord appris à programmer sur Linux et créé des clusters de calcul capables d'accélération linéaire des calculs matriciels, et ce cours a abouti à un projet final qui incluait le calcul parallèle en Python avec Dask sur un cluster Kubernetes.
J'ai également suivi AM207: Advanced Scientific Computing, proposé par la Harvard Extension School (ce qui signifie que tout le monde peut suivre ce cours). Ce cours était axé sur les statistiques bayésiennes et leur mise en œuvre dans l'apprentissage automatique, et comprenait d'innombrables heures de simulations de Monte Carlo Markov Chain (MCMC), travaillant avec le théorème bayésien et même regardant une courte vidéo sur Superman qui a fait tourner le temps. inversion (pour démontrer le concept de réversibilité du temps dans l'apprentissage automatique)
AC209a est également l'un des cours de base, qui se concentre sur les principes fondamentaux de l'apprentissage automatique et de la science des données. Je dirais que ce cours comprend ce à quoi la plupart des gens pensent quand quelqu'un dit les mots «science des données» ou «apprentissage automatique». Il s'agit d'apprendre à faire une analyse exploratoire des données et à exécuter des régresseurs et des classificateurs à l'aide de sklearn. La plupart des leçons se concentrent sur la compréhension de ces techniques et sur la meilleure façon de les optimiser pour un jeu de données donné (il faut un peu plus que simplement utiliser model.fit (X_train, y_train) ...). Un autre cours est AC209b: Additional Data Science Sections, qui est une extension du premier cours. En gros, il s'agit d'un cours de science des données sur les stéroïdes,dans lequel les premières conférences commencent par des modèles additifs généralisés et la création de jolies splines pour décrire des ensembles de données. Cependant, les choses dégénèrent rapidement en exécutant 2500 modèles en parallèle à l'aide de Dask sur un cluster Kubernetes dans le but d'effectuer une optimisation hyperparamétrique sur un réseau de neurones artificiels de 100 couches. Dans le même temps, en fait, ce n'était même pas la chose la plus difficile que nous ayons faite - tout cela ne s'est produit que dans la troisième semaine de cours, si nous parlons du cours dans son ensemble.ce n'était même pas la chose la plus difficile que nous ayons faite - tout ne s'est passé que pendant la troisième semaine de cours, si nous parlons du cours dans son ensemble.ce n'était même pas la chose la plus difficile que nous ayons faite - tout ne s'est passé que pendant la troisième semaine de cours, si nous parlons du cours dans son ensemble.
J'ai également suivi d'autres cours, notamment CS181: Machine Learning, qui couvre les fondements mathématiques de la régression, de la classification, de l'apprentissage par renforcement et d'autres domaines utilisant à la fois des méthodes basées sur les fréquences et bayésiennes; AM205: Méthodes scientifiques de résolution d'équations différentielles et AM225: méthodes avancées de résolution d'équations différentielles partielles. Il y a beaucoup d'autres cours que je pourrais également suivre pendant mon temps restant à Harvard pour approfondir mes connaissances, tels que CS207: Ingénierie des systèmes pour la science computationnelle, AM231: Théorie de la décision ou AM221: Optimisation avancée. Je devrais également préciser que chacun de ces cours avait un projet final que j'ai pu ajouter à mon portfolio.
Passons maintenant au sujet de l'article - après tout ce temps que j'ai passé à apprendre à être un bon Data Scientist, cela en valait-il la peine? Ou aurais-je pu tout faire moi-même? Plus précisément, cela vaut-il la peine pour quelqu'un qui cherche à poursuivre sa carrière d'investir 1 à 2 ans et plus de 100 000 $ dans un diplôme en science des données?
Je ne pense pas que tout ce que j'ai appris au cours de ces 18 mois de cours de Data Science je pourrais l'apprendre en lisant des livres, en regardant des vidéos en ligne et en étudiant la documentation de divers logiciels. Cependant, je ne doute pas qu'obtenir un diplôme en science des données peut accélérer la carrière de quelqu'un, ainsi que fournir une expérience précieuse avec des projets du monde réel qui pourraient être discutés lors d'entretiens et utilisés dans un portfolio. Personnellement, il me faudrait des années pour comprendre comment optimiser un réseau de neurones à 100 couches fonctionnant sur un cluster parallèle dans Google Cloud si j'étais juste assis à la maison et que je regardais une vidéo sur Youtube - je ne pouvais même pas imaginer comment le faire.
La curiosité à propos de la science des données est excellente et j'aimerais que plus de gens s'intéressent à ce sujet. Depuis l'explosion de l'information, il semble qu'au cours de la prochaine décennie, les données deviendront la nouvelle religion mondiale, et il est donc inévitable que le monde ait besoin de beaucoup plus de spécialistes en science des données. Cependant, la curiosité peut vous emmener très loin, et avoir un morceau de papier qui montre que vous avez passé du temps, investi dans des compétences et de bonnes habitudes et devenir un data scientist vraiment accompli vous distinguera des autres. La science des données n'existe pas seulement en tant que concurrence de Kaggle, comme certains semblent le penser.
Mon conseil pour ceux qui cherchent à faire de la Data Science est d'avoir de bonnes bases en statistiques et mathématiques, je vous conseille également d'acquérir une certaine expérience en programmation dans des langages tels que Python et R, ainsi que de maîtriser le développement Linux. La plupart des étudiants en informatique que j'ai vus semblent avoir du mal avec les aspects liés à l'informatique, tels que le travail avec des conteneurs Docker et la création et la gestion de clusters distribués fonctionnant sur une infrastructure cloud. Il existe de nombreuses compétences complexes à maîtriser pour devenir un Data Scientist expérimenté, et je ne peux certainement pas me qualifier d'expert. Cependant, avec une certaine expérience, je me sens suffisamment en confianceque je peux continuer à développer mes propres compétences en Data Science et Machine Learning et les appliquer à des projets et recherches liés à l'industrie, sans craindre de faire de la «mauvaise science».
Si vous voulez savoir ce qu'est un cours de science des données, je vous recommande de jeter un œil aux cours en ligne proposés par les universités, qui vous rapportent souvent les crédits dont vous avez besoin pour obtenir votre diplôme. Il y a maintenant un étudiant à Harvard qui a suivi 3 cours d'informatique à l'Extension School et qui est maintenant diplômé en informatique et ingénierie et est l'un des assistants d'enseignement du cours Advanced Data Science. Tout est possible!
Cours en ligne en Data Science avec un diplôme d'État du MISIS
NUST MISIS et SkillFactory (une école en ligne sur la science des données) ont signé un accord pour créer un programme de master en ligne commun «Data Science», qui comprendra des stages dans des projets réels, des forums de discussion avec des mentors et un plan de formation individuel. Les cours seront dirigés par le professeur NUST "MISA" et des praticiens du groupe Mail.ru, Yandex, la banque Tinkoff et les sociétés VTB Lamoda, BIOCAD, Alpha Insurance et autres.
Il s'agit du premier dans le cas russe d'un partenariat avec une société d'enseignement privée, un modèle universitaire public d'OPM (en ligne Gestion de programme). Le partenaire industriel du programme sera Mail.ru Group. Le programme est également soutenu par NVidia, Rostelecom et NTI University "20.35".
Les diplômés du baccalauréat de n'importe quelle direction pourront s'inscrire au programme de maîtrise en fonction des résultats de l'examen en ligne.Vous pouvez postuler dès maintenant et jusqu'au 10 août.
Matériel utile
- Ne devenez pas Data Scientist
- 450 cours gratuits de l'Ivy League
- Cours gratuits de science des données de l'Université Harvard
- 109 cours gratuits de science des données
- 65 cours d'apprentissage automatique gratuits des meilleures universités du monde
- Désolé, mais les cours en ligne ne feront pas de vous un Data Scientist
- Comment apprendre à devenir un data scientist: les compétences techniques les plus demandées
- Philosophie de l'enseignement de la science des données et de l'apprentissage profond par fast.ai
- Comment je (doctorat en neurobiologie) est devenu data scientist en 6 mois
- Projet de science des données le plus réussi et le plus controversé: Cambridge Analytica
- Python.org recommande: Programmation pour les non-programmeurs