Contenu
- Différences majeures
- Crise de reproductibilité
- Système de contrôle de version
- Contrôle de la version des données
- Liens utiles
introduction
Malgré tous les avantages de DVC , très peu de développeurs connaissent cet outil. Par conséquent, je pense qu'il ne sera pas superflu de vous présenter en premier. DVC est un système de contrôle de version de données open source idéal pour l'apprentissage automatique. Et la principale différence entre DVC et Git est que: premièrement, il dispose d'une boîte à outils plus large et plus pratique pour les projets ML ; deuxièmement, il est conçu pour le contrôle de version des données, pas du code. Et pour la plupart, c'est là que s'arrêtent leurs différences majeures. Et puis j'essaierai de décrire pourquoi DVC est si bon, et pourquoi Git n'est pas suffisant pour ML.
Crise de reproductibilité
«Reproducibility crisis» ( . – « »), , , , , .
? , 98.5%, ?
, . . , . – , , , , , .
, – . , / . , .
Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS
Git-LFS [] Git , Git. – / , . . . . , :
- Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
- , .
- Git-LFS . LFS .
- Git-LFS .
Data Version Control
DVC Git. , (, Git). DVC + Git :
Github’ - . ( ) , . .
DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .
DVC:
- ;
- ;
- Création de pipelines pour le traitement des jeux de données et leur visualisation dans la console;
- Sauvegarde et suivi de toutes les métriques;
- Basculer entre les versions de fichiers;
- Reproduction de modèles sur les pipelines créés.