DVC vs GIT. Pourquoi GIT ne suffit pas pour les projets d'apprentissage automatique

Contenu





introduction



Malgré tous les avantages de DVC , très peu de développeurs connaissent cet outil. Par conséquent, je pense qu'il ne sera pas superflu de vous présenter en premier. DVC est un système de contrôle de version de données open source idéal pour l'apprentissage automatique. Et la principale différence entre DVC et Git est que: premièrement, il dispose d'une boîte à outils plus large et plus pratique pour les projets ML ; deuxièmement, il est conçu pour le contrôle de version des données, pas du code. Et pour la plupart, c'est là que s'arrêtent leurs différences majeures. Et puis j'essaierai de décrire pourquoi DVC est si bon, et pourquoi Git n'est pas suffisant pour ML.









Crise de reproductibilité



«Reproducibility crisis» ( . – « »), , , , , .







? , 98.5%, ?







, . . , . – , , , , , .







, – . , / . , .











Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS







Git-LFS [] Git , Git. – / , . . . . , :







  • Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
  • , .
  • Git-LFS . LFS .
  • Git-LFS .




Data Version Control



DVC Git. , (, Git). DVC + Git :











Github’ - . ( ) , . .







DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .







DVC:







  • ;
  • ;
  • Création de pipelines pour le traitement des jeux de données et leur visualisation dans la console;
  • Sauvegarde et suivi de toutes les métriques;
  • Basculer entre les versions de fichiers;
  • Reproduction de modèles sur les pipelines créés.









All Articles