Que lire pour un data scientist en 2020



Dans cet article, nous partageons avec vous une sélection d'idées utiles en science des données du co-fondateur et CTO de DAGsHub, une communauté et une plate-forme Web pour le contrôle de la révision des données et la collaboration entre les data scientists et les ingénieurs en apprentissage automatique. La sélection comprend une variété de sources, des comptes Twitter aux blogs d'ingénierie à part entière qui s'adressent à ceux qui savent exactement ce qu'ils recherchent. Détails sous la coupe.



De l'auteur:

Vous êtes ce que vous mangez et, en tant que travailleur du savoir, vous avez besoin d'une bonne alimentation informative. Je souhaite partager les sources d'informations sur la Data Science, l'Intelligence Artificielle et les technologies associées que je trouve les plus utiles ou attractives. J'espère que cela vous aide aussi!


Papiers de deux minutes



Une chaîne YouTube qui permet de suivre les dernières nouvelles. La chaîne est mise à jour fréquemment et le présentateur a un enthousiasme contagieux et une attitude positive dans tous les sujets abordés. Attendez-vous à couvrir des travaux intéressants non seulement sur l'IA, mais aussi sur l'infographie et d'autres sujets visuellement attrayants.



Yannick Kilcher



Sur sa chaîne YouTube, Yannick explique techniquement des recherches significatives en deep learning en détail technique. Au lieu de lire l'étude vous-même, il est souvent plus rapide et plus facile de regarder l'une de ses vidéos pour mieux comprendre les articles importants. Les explications véhiculent l'essence des articles, sans négliger les mathématiques et sans se perdre dans les trois pins. Yannick partage également son point de vue sur la façon dont les études se comparent les unes aux autres, comment prendre au sérieux les résultats, des interprétations plus larges, etc. Il est plus difficile pour les débutants (ou les praticiens non universitaires) d'arriver seuls à ces découvertes.



Distill.pub



Dans leurs propres mots:



La recherche sur l'apprentissage automatique doit être claire, dynamique et dynamique. Et Distill a été créé pour aider la recherche.


Distill est une publication unique avec des recherches sur l'apprentissage automatique. Les articles sont promus avec de superbes visualisations pour donner au lecteur une compréhension plus intuitive des sujets. La pensée spatiale et l'imagination ont tendance à très bien fonctionner pour aider à comprendre les sujets de l'apprentissage automatique et de la science des données. En revanche, les formats de publication traditionnels ont tendance à être rigides dans leur structure, statiques et secs, et parfois «mathématiques» . Chris Olah, l'un des créateurs de Distill, maintient également un incroyable blog personnel sur GitHub . Il n'a pas été mis à jour depuis longtemps, mais il reste toujours une collection des meilleures explications jamais écrites sur le sujet de l'apprentissage profond. En particulier, la description de LSTM m'a beaucoup aidé !





une source



Sebastian Ruder



Sebastian Ruder écrit un blog et une newsletter très informatifs, principalement sur l'intersection des réseaux de neurones et de l'analyse de texte en langage naturel. Il donne également de nombreux conseils aux chercheurs et aux présentateurs lors de conférences scientifiques, ce qui peut être très utile si vous êtes dans le milieu universitaire. Les articles de Sebastian sont généralement sous la forme de critiques, résumant et expliquant l'état de la recherche et des méthodes modernes dans un domaine particulier. Cela signifie que les articles sont extrêmement utiles pour les praticiens qui souhaitent se repérer rapidement. Sebastian tweete également .



Andrey Karpati



Andrey Karpati n'a pas besoin d'être présenté. En plus d'être l'un des chercheurs en apprentissage profond les plus célèbres sur Terre, il crée des outils largement utilisés comme arxiv sanity preserver dans le cadre de projets parallèles. D'innombrables personnes sont entrées dans le domaine grâce à son cours de Stanford sur cs231n , et vous trouverez utile de connaître sa recette pour apprendre un réseau de neurones. Je recommande également de regarder son discours sur les défis du monde réel que Tesla doit surmonter lorsqu'il tente d'appliquer l'apprentissage automatique à grande échelle dans le monde réel. Le discours est instructif, impressionnant et qui donne à réfléchir. En plus d'articles sur le ML directement, Andrey Karpati donne de bons conseils de vie pourscientifiques ambitieux . Lisez Andrew sur Twitter et Github .



Ingénierie Uber



Le blog d'ingénierie Uber est vraiment impressionnant par sa taille et sa largeur, couvrant une tonne de sujets, notamment l' intelligence artificielle . Ce que j'aime particulièrement dans la culture d'ingénierie d'Uber, c'est leur tendance à produire des projets très intéressants et précieux avec l'open source à un rythme effréné. Voici quelques exemples:





Blog OpenAI



Mis à part les désaccords, le blog OpenAI est sans aucun doute magnifique. De temps en temps, le blog publie du contenu et des idées sur le deep learning qui ne peuvent venir qu'à l'échelle d'OpenAI: l'hypothétique phénomène de double descente profonde. L'équipe d'OpenAI a tendance à publier rarement, mais c'est important.





une source



Blog Taboola



Le blog Taboola n'est pas aussi connu que certaines des autres sources de cet article, mais je le trouve unique - les auteurs écrivent sur des défis très banals et réels lorsqu'ils tentent d'appliquer le ML dans la fabrication pour une entreprise "normale": moins de voitures autonomes et d'agents RL gagnent champions du monde, en savoir plus sur "comment savoir que mon modèle prédit désormais les choses avec une fausse confiance?" Ces problèmes concernent presque tout le monde travaillant sur le terrain et reçoivent moins de couverture médiatique que les sujets plus courants sur l'IA, mais il faut encore des talents de classe mondiale pour s'attaquer correctement à ces problèmes. Heureusement, Taboola a à la fois ce talent et la volonté et la capacité d'écrire à ce sujet afin que d'autres personnes puissent aussi apprendre.



Reddit



Avec Twitter, il n'y a rien de mieux sur Reddit que de devenir accro à la recherche, aux outils ou à la sagesse de la foule.





État de l'IA



Les articles ne sont publiés qu'une fois par an, mais ils sont remplis d'informations de manière très dense. Par rapport aux autres sources de cette liste, celle-ci est plus accessible aux hommes d'affaires non technologiques. Ce que j'aime dans les rapports, c'est qu'ils essaient de fournir une vue plus holistique de la direction de l'industrie et de la recherche, reliant les progrès du matériel, de la recherche, des affaires et même de la géopolitique à vol d'oiseau. Assurez-vous de commencer par la fin pour en savoir plus sur les conflits d'intérêts.



Podcasts



Franchement, je pense que les podcasts sont mal adaptés pour apprendre des sujets techniques. Après tout, ils n'utilisent que le son pour expliquer les sujets, et la science des données est un champ très visuel. Les podcasts ont tendance à vous donner une raison de faire plus de recherches plus tard ou d'avoir des discussions philosophiques amusantes. Cependant, voici quelques directives:



  • podcast de Lex Friedman lorsqu'il s'entretient avec d'éminents chercheurs dans le domaine de l'intelligence artificielle. Les épisodes avec François Schollet sont particulièrement bons!
  • Podcast d'ingénierie des données . Ravi d'entendre parler de nouveaux outils d'infrastructure de données.


Super listes



Il y a moins à surveiller, mais plus de ressources pour vous aider lorsque vous savez ce que vous recherchez:





Twitter





  • , , — Twitter. .


  • . -. , , . , , .


  • fast.ai, .


  • ML Github, .
  • François

    Chollet, le créateur de Keras, tente maintenant de mettre à jour notre compréhension de ce qu'est l'intelligence et comment la tester.
  • Hardmaru Research

    Scientist chez Google Brain.




Conclusion



Le message original peut être mis à jour car l'auteur trouve d'excellentes sources de contenu qu'il serait dommage de ne pas énumérer. N'hésitez pas à le suivre sur Twitter si vous souhaitez recommander une nouvelle source! DAGsHub engage également Advocate [env. trad. public praticien] en Data Science, donc si vous créez votre propre contenu Data Science, n'hésitez pas à écrire à l'auteur de l'article.



image


Développez- vous en lisant les sources recommandées, et en utilisant le code promo HABR , vous pouvez obtenir un supplément de 10% sur la réduction indiquée sur la bannière.







Articles recommandés






All Articles