Apprendre la science des données à partir de zéro: jalons et jalons

Conformément au concept d'une approche en spirale de l'apprentissage, dont j'ai parlé plus tôt , voici un plan étape par étape pour maîtriser la science des données. Le plan est conçu de sorte que chaque étape rend l'élève plus ou moins mieux équipé pour les tâches du monde réel. Cette approche est inspirée de l'idéologie Agile en ce sens que peu importe le temps que vous passez à apprendre et à tout moment où vous vous arrêtez, vous aurez l'ensemble de connaissances le plus demandé que vous puissiez maîtriser dans un tel moment.





Cette logique peut aussi s'expliquer par l'inverse: il est dangereux d'apprendre immédiatement les réseaux de neurones, car une personne qui sait quelque chose à leur sujet, mais ne sait pas comment l'appliquer efficacement dans la pratique, n'est pas en demande. Et, par exemple, vous pouvez obtenir un ensemble de connaissances en 300 heures qui ne font pas de vous un spécialiste assez bon pour résoudre de vrais problèmes, et ne vous permettront même pas de trouver un emploi de départ pour continuer à développer ces compétences.





Si vous étudiez selon le plan proposé, à chaque étape, les chances de trouver un tel emploi augmenteront, de sorte que les compétences nécessaires à une croissance ultérieure pourraient également être améliorées au cours d'un travail réel.





Pour chaque étape, j'indique les coûts salariaux de référence, sous réserve d'une approche plus ou moins efficace et en étudiant uniquement le volume minimum requis (avec une approche inefficace, chaque item peut être enseigné dix fois plus longtemps)





Plus tard, dans un article séparé, j'écrirai de bons cours et livres correspondant à chaque étape (certains cours et livres pour les premières étapes ont déjà été indiqués plus haut dans le premier article de cette série).





Étape 1. Outils d'analyse de données de base: SQL, Excel

  • Bases de SQL (20h). La connaissance de SQL par vous-même peut être utile pour une tonne d'autres tâches. Et cela, dans tous les cas, est nécessaire pour une grande partie (la plupart?) Des postes vacants pour le poste d'analyste, de data scientist et, plus encore, d'ingénieur en apprentissage automatique.





  • Bases d'Excel (10h): filtres et tri des données, formules, vlookup, tableaux croisés dynamiques, travail de base avec les graphiques. Les collègues, les partenaires ou la direction soumettront des contributions pour exceller, et vous devrez être en mesure de les comprendre et de les étudier rapidement. Souvent, il est plus pratique de préparer et de présenter les résultats de l'analyse effectuée en Python dans Excel.





  • (20-200, ), .. , pandas/scikit, Python .





: / / -. , , 100, 50-70 .





2. Python Pandas

  • Python (80). . .





  • pandas (20 ) - . : , , ,





  • API (requests, beatiful soup)





Python API, -.





, . , -, ( ). , , .





3.

( 200-400 , )





  :





  • -





  • Overfitting









  • Data leakage





  • ( )









, :





  • :

















    • Random forest









    • kNN





  • : k-means





  • :





  • : PCA





: dummy , one-hot encoding, tf-idf









:





  • : , ( ).





  • : "correlation does not imply causation", .





  • ., ,   : . (max likelihood), (log-likelihood). ( log log-odds), ( ""). , , . , . . , senior, :





. - (/) .





4.

- scikit-learn, pandas (numpy).





, . 100-300. - , .





feature engineering





junior data scientist. . . senior , .





, CNN, RNN/LSTM , vector embeddings. , . " " , , , , , .





, .





20-40, .





5. ,  

60-200, . , , , .. ,





  • Conda, , conda





  • bash





  • Python standard library, ( itertools, collections, contextlib), , ; context managers.





  • git, IDE: pycharm/vs code. git,





  • (matplotlib+seaborn, plotnine, plotly), .





( -, ).





, , , , (feature engineering), , , (xgboost, cat-boost). . Senior .





, 2-5

- , . , , . ( ):





  • matplotlib – , . , , -. , , "" - .





  • seaborn - , . .





  • plotnine - . - , . - seaborn , matplotlib , . , , plotnine . plotly - .





  • plotly - . . , , ().





, 10-20 .





, - PowerBI Tableau, . , , 60. SQL+Excel+PowerBI/Tableau "BI-" c 100 ., 150 . .





, ,





  • regular expressions, aka RegExp (10). regexp .





  • PySpark (40 , 100-200 ) . , (). Big data. , .. . ( , ).





    Spark , , , .. SQL , , API pandas. , . Koalas, pandas spark-, Spark.





  • html - , , , .





6

, , , .





  • Python :  , , , dunderscore ____ .





  • bash, linux





  • docker





  . , , . .. , .





- (, EDA ). , . , . , , .. . , : , , .





, . , .. . , "" .





:  . 50, , , .





, , data science









, ,









, ( 2 ) , , .





, , , , . , , , . , .





, , , .





self.development.mentor dans le domaine gmail.com, Oleg 








All Articles