La recherche sur l'IA est dominée par les géants de la technologie, mais la frontière entre les véritables percées et la publicité des produits commerciaux s'estompe progressivement. Certains scientifiques pensent qu'il est temps d'arrêter cela.
Le mois dernier, la revue Nature a publié une revue abusive signée par 31 scientifiques. Ils n'aimaient pas l' étude Google Health qui avait paru plus tôt dans le même journal. Dans celui-ci, Google a décrit les résultats positifs d'un test d'intelligence artificielle (IA) qui recherchait des signes de cancer du sein sur des photographies médicales. Les critiques affirment que l'équipe Google a fourni si peu d'informations sur le code et la progression des tests que l'étude ressemblait davantage à une description promotionnelle d'une technologie privée fermée.
«Nous ne pouvions plus le supporter», dit Benjamin Haibe-Caines, examinateur principal qui étudie la génomique computationnelle à l'Université de Toronto. "Et il ne s'agit pas de cette étude en particulier - nous observons une tendance similaire depuis de nombreuses années consécutives, et cela nous agace vraiment."
Haibe-Kains et ses collègues font partie d'un nombre croissant de scientifiques qui résistent au manque apparent de transparence dans la recherche sur l'IA. «Après avoir vu ce travail de Google, nous avons réalisé qu'il ne s'agissait là que d'un autre exemple d'une série de publications enthousiastes dans une revue très respectée qui n'ont rien à voir avec la science», dit-il. - C'est plus une publicité pour une technologie cool. Nous ne pouvons rien y faire. "
La science est basée sur la confiance, y compris la divulgation des détails de la façon dont la recherche est menée avec suffisamment de détails pour que d'autres puissent reproduire et valider leurs résultats. C'est ainsi que la science se corrige et déracine les résultats non confirmés. La reproductibilité permet à d'autres de baser leur travail sur ces résultats, ce qui contribue à faire avancer le domaine de la connaissance. La science qui ne peut être reproduite se trouve en marge de l'histoire.
Au moins en théorie. En pratique, peu d'études sont entièrement reproductibles, car la plupart des chercheurs sont plus intéressés à obtenir de nouveaux résultats qu'à répéter les anciens. Cependant, dans des domaines tels que la biologie, la physique, l'informatique, les chercheurs attendent des auteurs qu'ils fournissent suffisamment d'informations à partager pour que ces expériences puissent être répétées - même si cela est rarement fait.
Débutant ambitieux
L'IA est grondée pour plusieurs raisons. Tout d'abord, c'est un débutant. C'est devenu une science expérimentale au cours des dix dernières années, déclare Joel Pigno, informaticien à Facebook AI Research et à l'Université McGill, qui a co-écrit la plainte. «Au début, c'était un domaine purement théorique, mais maintenant nous faisons de plus en plus d'expériences», dit-elle. «Et notre engagement pour une méthodologie rigoureuse est en retard sur l'ambition de nos expériences.
Ce n'est pas seulement un problème académique. Le manque de transparence rend impossible de tester correctement les nouveaux modèles et technologies d'IA pour la fiabilité, l'absence de distorsion et la sécurité. L'IA passe rapidement des laboratoires de recherche au monde réel, affectant directement la vie des gens. Cependant, les modèles d'apprentissage automatique (ML) qui fonctionnent bien en laboratoire peuvent se briser dans le monde réel, ce qui peut entraîner des conséquences dangereuses. La reproduction des résultats d'expériences de différents chercheurs dans différentes conditions révélera plus rapidement d'éventuels problèmes, ce qui rendra l'IA plus fiable pour tous.
L'IA souffre déjà du problème de la «boîte noire»: il est parfois impossible de dire comment ou pourquoi un modèle ML produit exactement ce résultat. Le manque de transparence dans la recherche ne fait qu'empirer les choses. Les grands modèles nécessitent autant d'observateurs que possible pour amener plus de personnes à expérimenter et à comprendre leur travail. C'est ainsi que vous pouvez rendre l'utilisation de l'IA plus sûre dans les soins de santé, plus juste dans l'ordre public et polie dans le chat.
La reproductibilité normale de l'IA est entravée par le manque de trois éléments: le code, les données et le matériel. L' état 2020 de l'IA"Une analyse annuelle vérifiée par les investisseurs Nathan Benaich et Ian Hogarth, a révélé que seulement 15% de la recherche en IA partage le code. Les chercheurs de l'industrie sont plus susceptibles de se comporter mal que les scientifiques universitaires. En particulier, les entreprises OpenAI sont mises en évidence dans le rapport. et DeepMind, qui sont les moins susceptibles de partager leur code.
Le manque d'outils nécessaires à la reproductibilité se fait plus ressentir lorsqu'il s'agit des deux piliers de l'IA - les données et le matériel. Les données sont souvent détenues entre des mains privées - par exemple, les données que Facebook recueille sur ses utilisateurs - ou sont sensibles, comme c'est le cas avec les dossiers médicaux. Les géants de la technologie mènent de plus en plus de recherches sur d'énormes grappes informatiques extrêmement coûteuses auxquelles peu d'universités ou de petites entreprises ont accès.
Par exemple, former un générateur de langage GPT-3, selon certaines estimations, OpenAI coûte 10 à 12 millions de dollars - et ce n'est que si nous prenons en compte le dernier modèle, sans prendre en compte le coût ou le développement et la formation des prototypes. «Ensuite, ce chiffre pourrait probablement être augmenté d'un ou deux ordres de grandeur», déclare Benayh, fondateur de la société de capital-risque Air Street Capital, qui investit dans des startups d'IA. Un petit pourcentage de grandes entreprises technologiques peut se le permettre, dit-il: «Personne d'autre ne peut consacrer des budgets aussi énormes à de telles expériences».
Question hypothétique: certaines personnes ont accès à GPT-3 et d'autres non. Que se passe-t-il lorsque nous voyons de nouveaux travaux émerger là où des personnes extérieures au projet OpenAI utilisent GPT-3 pour obtenir des résultats de pointe?
Et le principal problème est: OpenAI choisit-il les chercheurs gagnants et perdants?
La vitesse de progression est vertigineuse. Des milliers d'ouvrages sont publiés chaque année. Cependant, si vous ne savez pas à qui faire confiance, il est très difficile de favoriser le développement de cette zone. La réplication permet à d'autres chercheurs de vérifier que les auteurs ne correspondent pas manuellement aux meilleurs résultats et que les nouvelles technologies fonctionnent effectivement comme décrit. «Il devient de plus en plus difficile de distinguer les résultats fiables des autres», déclare Piño.
Que peut-on faire ici? Comme beaucoup d'autres chercheurs en IA, Pigno partage son temps entre l'université et les laboratoires d'entreprise. Ces dernières années, elle a activement influencé le système de publication de la recherche en IA. Par exemple, l'année dernière, elle a aidé à promouvoir la liste des éléments que les chercheurs doivent fournir dans une soumission d'article à l'une des plus grandes conférences sur l'IA, NeurIPS. Il comprend du code, une description détaillée des expériences.
La reproductibilité est précieuse en soi
Pinho a également aidé à lancer plusieurs concours de répétabilité dans lesquels les chercheurs tentent de reproduire les résultats de chercheurs publiés. Les participants sélectionnent les articles acceptés lors des conférences et se font concurrence, menant des expériences en fonction des informations fournies. Certes, ils ne reçoivent qu'une reconnaissance en guise de récompense.
Le manque de motivation ne favorise pas la diffusion de telles pratiques dans tous les domaines de recherche, pas seulement en IA. La reproduction est une chose nécessaire, mais elle n'est en aucun cas encouragée. Une solution à ce problème consiste à impliquer les étudiants dans ce travail. Au cours des dernières années, Rosemary Ke, Ph.D. de Mila, un institut de recherche montréalais fondé par Yoshua Benjio, a organisé un concours de reproductibilité, dans le cadre duquel les étudiants tentent de reproduire les recherches soumises à NeurIPS dans le cadre de formations. Certaines des tentatives réussies sont évaluées par des pairs et publiées dans ReScience.
«Reproduire le travail de quelqu'un d'autre à partir de zéro demande beaucoup d'efforts», déclare Ke. «Le concours de reproductibilité récompense cet effort et honore les personnes qui font du bon travail.» Ke et d'autres parlent de ces tentatives lors de conférences sur l'IA, organisant des ateliers pour encourager les chercheurs à ajouter de la transparence à leur travail. Cette année, Pinho et Ke ont élargi leur concours pour inclure les sept plus grandes conférences sur l'IA, notamment ICML et ICLR.
Un autre projet promouvant la transparence s'appelle Papers with Code. Il a été organisé par le chercheur en IA Robert Stoinik alors qu'il travaillait à l'Université de Cambridge. Maintenant, lui et Pinho travaillent ensemble sur Facebook. Le projet a d'abord été lancé en tant que site Web autonome où les chercheurs pouvaient établir un lien entre leurs travaux et leur code. Cette année, le projet s'est associé au célèbre serveur de pré-impression arXiv. Depuis octobre, tous les travaux de machine learning publiés sur arXiv ont une section Papers with Code, à partir de laquelle se trouve un lien vers le code que les auteurs du travail sont prêts à publier. Le but du projet est de faire de la distribution de ce code la norme.
Ces tentatives ont-elles un impact? Pigno a constaté que l'année dernière, lorsque la liste des prérequis a été publiée, le nombre d'articles soumis par code soumis à la conférence NeurIPS était passé de 50% à 75%. Des milliers d'examinateurs disent avoir utilisé le code pour évaluer les soumissions. Le nombre de participants au concours de reproductibilité est en augmentation.
Le diable est dans les détails
Mais ce n'est que le début. Haibe-Kains souligne que le code seul n'est souvent pas suffisant pour relancer une expérience. Pour créer des modèles d'IA, vous devez apporter de nombreux petits changements - ajoutez un paramètre ici, valeur ici. N'importe lequel de ces éléments peut rendre un modèle fonctionnel non fonctionnel. Sans métadonnées décrivant comment les modèles sont entraînés et ajustés, le code peut être inutile. «Le diable est vraiment dans les petites choses», dit-il.
Le code à distribuer n'est pas toujours clair. De nombreux laboratoires utilisent des programmes spéciaux pour exécuter des modèles. Parfois, il s'agit d'un logiciel propriétaire propriétaire. Il est également parfois difficile de dire quel morceau de code partager, dit Haibe-Kains.
Pinho n'est pas particulièrement concerné par ces obstacles. «Il y a beaucoup à attendre de la distribution du code», dit-elle. Le partage des données est plus difficile, mais il existe des solutions. Si les chercheurs ne sont pas en mesure de partager des données, ils peuvent fournir des conseils sur la manière de collecter eux-mêmes un ensemble de données approprié. Ou, vous pouvez faire en sorte qu'un petit nombre d'examinateurs accède aux données et valide les résultats pour tout le monde, dit Khaibe-Kains.
Le plus gros problème est avec le matériel. DeepMind affirme que de grands projets comme AlphaGo ou GPT-3, pour lesquels les grands laboratoires dépensent de l'argent, profiteront à tout le monde à la fin. Inaccessible aux autres chercheurs à un stade précoce, l'IA, qui nécessite une énorme puissance de calcul, devient souvent plus efficace et plus accessible au cours du développement. «AlphaGo Zero a devancé son prédécesseur, AlphaGo, en utilisant beaucoup moins de puissance de calcul», a déclaré Koray Kavukchuoglu, vice-président de la recherche chez DeepMind.
En théorie, cela signifie que même si l'étude est reproduite tardivement, elle sera toujours possible. Kavukchuoglu note que Jean-Carlo Pascutto, un programmeur belge chez Mozilla qui écrit des programmes d'échecs et de go pendant son temps libre, a pu reproduire une variante d'AlphaGo Zero appelée Leela Zero en utilisant des algorithmes décrits dans les articles de DeepMind. Pigno estime également que les études phares telles que AlphaGo et GPT-3 sont rares. Elle dit que la plupart des recherches sur l'IA fonctionnent sur des ordinateurs disponibles pour le laboratoire moyen. Et un tel problème n'est pas propre à l'IA. Pinho et Benayhom évoquent la physique des particules, dans laquelle certaines expériences ne peuvent être effectuées que sur des équipements coûteux tels que le grand collisionneur de hadrons.
Cependant, des expériences de physique sont menées au LHC par plusieurs laboratoires ensemble. Et les grandes expériences d'IA sont généralement menées sur des équipements détenus et contrôlés par des entreprises privées. Mais Pinho dit que cela change aussi. Par exemple, Compute Canada assemble des grappes informatiques pour permettre aux universités de mener de grandes expériences d'IA. Certaines entreprises, dont Facebook, donnent aux universités un accès limité à leur équipement. «La situation n'est pas complètement résolue», dit-elle. "Mais certaines portes commencent à s'ouvrir."
, . . Google, , Nature , , Google - .
: , , ( ). . .
Khaibe-Kains doute. Lorsqu'il a demandé à l'équipe Google Health de partager le code de son IA diagnostiquant le cancer, on lui a dit que le code devait encore être testé. L'équipe réitère cette même excuse dans une réponse formelle à la critique de Haibe-Kains, également publiée dans Nature. «Nous allons soumettre nos programmes à des tests approfondis avant de les utiliser dans un cadre clinique, en travaillant avec les patients, les fournisseurs de services et les organismes de réglementation pour que tout fonctionne efficacement et en toute sécurité.» Les chercheurs ont également déclaré qu'ils ne sont pas autorisés à partager toutes les données médicales qu'ils utilisent.
Cela ne fonctionnera pas, dit Khaibe-Kains. "S'ils veulent en faire un produit commercial, je comprends pourquoi ils ne veulent pas divulguer toutes les informations." Cependant, il estime que si vous publiez dans une revue scientifique ou lors d'une conférence, il est de votre devoir de publier du code que d'autres peuvent exécuter. Parfois, il est possible de publier une version entraînée pour nous avec moins de données ou en utilisant du matériel moins coûteux. Les résultats peuvent être pires, mais les gens peuvent les bricoler. «La frontière entre la fabrication de produits commerciaux et la recherche s'estompe constamment», déclare Haibe-Kains. "Je pense que ce domaine d'expertise finira par échouer."
Il est difficile d'abandonner les habitudes de recherche
Si les entreprises sont critiquées pour leur travail d'édition, pourquoi s'en préoccuper? Une partie de cela, bien sûr, a à voir avec les relations publiques. Cependant, c'est principalement parce que les meilleurs laboratoires commerciaux regorgent de chercheurs universitaires. Dans une certaine mesure, la culture d'endroits comme Facebook AI Research, DeepMind et OpenAI est façonnée par les habitudes académiques traditionnelles. En outre, les entreprises technologiques bénéficient de leur participation à la communauté de recherche plus large. Tous les grands projets d'IA dans des laboratoires privés s'appuient sur une variété de résultats de recherches publiées. Et peu de chercheurs en IA ont utilisé des outils de ML open source comme PyTorch de Facebook ou TensorFlow de Google.
Plus la recherche est effectuée dans les entreprises géantes de la technologie, plus il faudra faire des compromis entre les exigences commerciales et les exigences de recherche. La question est de savoir comment les chercheurs s'attaqueront à ces problèmes. Haibe-Kains aimerait que des revues comme Nature divisent leurs publications en flux séparés - recherche reproductible et démonstration des progrès technologiques.
Pinho est plus optimiste quant à l'avenir. «Je ne travaillerais pas chez Facebook sans une approche ouverte de la recherche», dit-elle.
D'autres laboratoires d'entreprise insistent également sur un engagement d'ouverture. «Le travail scientifique nécessite une étude minutieuse et une reproductibilité de la part d'autres chercheurs», déclare Kavukchuoglu. "C'est un élément essentiel de notre approche de recherche chez DeepMind."
«OpenAI est devenu quelque chose de très différent d'un laboratoire traditionnel», déclare Kayla Wood, porte-parole de l'entreprise. "Naturellement, des questions se posent pour elle." Elle note qu'OpenAI travaille avec plus de 80 organisations commerciales et universitaires dans le cadre de l'initiative Partenariat sur l'IA pour réfléchir à des normes à long terme pour la publication de la recherche.
Pinho pense qu'il y a quelque chose là-dedans. Elle pense que les entreprises d'IA montrent une troisième façon de faire de la recherche, quelque part entre les deux flux Haibe-Kains. Elle compare les résultats intelligents des laboratoires privés d'IA avec les sociétés pharmaceutiques - ces dernières investissant des milliards dans le développement de médicaments et conservant la plupart des résultats pour elles-mêmes.
L'impact à long terme des pratiques adoptées par Pinho et d'autres reste à voir. Les habitudes changeront-elles définitivement? Comment cela affectera-t-il l'utilisation de l'IA en dehors de la recherche? Tout dépend de la direction que prend l'IA. La tendance vers des modèles et des ensembles de données plus grands - qui est suivie, par exemple, par OpenAI - soutiendra une situation dans laquelle les options avancées d'IA ne sont pas disponibles pour la plupart des chercheurs. D'un autre côté, de nouvelles technologies telles que la compression de modèles et l' apprentissage en quelques clics pourraient briser cette tendance et permettre à davantage de chercheurs de travailler avec des IA plus petites et plus efficaces.
Quoi qu'il en soit, les grandes entreprises continueront de dominer la recherche en IA. Et si elle est bien faite, il n'y a rien de mal à cela, déclare Pigno: «L'IA change le fonctionnement des laboratoires de recherche.» La clé est de s'assurer que le grand public a la possibilité de participer à la recherche. Parce que la foi en l'IA, dont dépend tant, commence à la pointe.