Le système de sauvegarde de la banque (DBS) fonctionne depuis longtemps sur la base du logiciel Veritas NetBackup. Mais l'équipement, sur lequel tournait le SRC, ne pouvait plus supporter la charge.
L'absence de fenêtre de sauvegarde est un signe d'un problème imminent. Le SRK n'avait plus le temps de sauvegarder les données des serveurs et des postes de travail pendant la nuit, et certaines des tâches étaient réparties sur les heures de travail. Par conséquent, pour certaines ressources, des copies n'étaient pas effectuées tous les jours, ce qui créait un risque de perte de données et de violation du niveau SLA en cas de véritables pannes.
Un autre problème est le manque d'espace sur la bibliothèque de disques. Pour compenser cela, le client a réduit la durée de stockage des sauvegardes sur la bibliothèque de disques de 14 jours à 7 jours. Cela a mis un stress supplémentaire sur les lecteurs de bandothèque, qui étaient de toute façon presque entièrement utilisés.
La bibliothèque de disques a été utilisée pour le stockage en ligne des sauvegardes et a fourni une exécution parallèle de travaux de sauvegarde jusqu'à 25 threads simultanément.
La bandothèque a été utilisée pour le stockage à long terme. Selon les exigences du régulateur, divers documents doivent être conservés de 1 à 5 ans. Avec une nouvelle augmentation de la charge, le client aurait des problèmes de conformité avec les règlements de la Banque centrale. Pas une perspective très positive.
Changement? Réparation? Développer? Améliorer?
Lorsque le SRK a commencé à "s'étouffer", approchant la limite de sa productivité, le client s'est posé une question: où se trouve le "goulot d'étranglement" du système? Comme nous sommes impliqués dans la maintenance de la partie logicielle du SRK, le service informatique de la banque nous a demandé d'analyser le fonctionnement du système.
La solution à l'époque comprenait les composants suivants:
- 1 x serveur maître / média NetBackup Solaris x86
- 1 x serveur de supports de sauvegarde VMware;
- 45 serveurs multimédias AIX
- 10 x serveurs de médias SPARC Solaris;
- 1 x bibliothèque de disques Dell EMC Data Domain 4200 en mode VTL;
- 1 x bibliothèque de bandes Oracle SL3000 avec 8 lecteurs LTO6.
Pour stocker des sauvegardes en ligne, plusieurs flux de sauvegardes provenant de serveurs de médias et de clients d'entreprise ont été enregistrés simultanément à l'aide du protocole FC dans la bibliothèque de disques. Les copies ont ensuite été sauvegardées sur un support de bande de la bibliothèque Oracle SL3000 via le serveur maître / média NetBackup via le protocole FC.
La banque compte 830 clients SRK, dont environ 730 machines virtuelles VMware, des clients Enterprise sur AIX et Solaris et des serveurs x86 physiques. Le volume d'origine d'une copie complète des données sauvegardées était de 115 To.
Pour trouver le goulot d'étranglement, nous avons examiné les statistiques d'exécution des travaux NetBackup, la configuration des E / S du serveur de médias, la configuration SAN, l'utilisation des lecteurs de bandothèque et les performances de la bandothèque. Pour cela, le client nous a fourni des rapports de diagnostic:
- nbsu - Utilitaire de support Veritas NetBackup;
- NetBackup DeployUtil et spécification de la licence logicielle;
- Brocade SAN Health sur la configuration SAN;
- AutoSupport à partir de la bibliothèque de disques Data Domain.
Le rapport nbsu - Veritas NetBackup Support Utility fournit des informations complètes sur la configuration de NetBackup, y compris des informations sur les performances des travaux de sauvegarde. Ces informations sont présentées dans le vidage de bpdbjobs - most_columns. Mais vous devez être capable de l'analyser et de convertir les dates et heures du format d'époque en un format lisible par l'homme.
Le résultat de la commande bpdbjobs vous aide à évaluer les performances et la durée de chaque travail. Voici comment vous pouvez obtenir une image de la mise au rebut des lecteurs de bandothèque sur une échelle de temps :
Le nbsu dispose de données sur les supports utilisés, les périodes de rétention et leur distribution dans les pools. Vous trouverez ci-dessous un résumé des temps de rétention des médias basés sur NBU_available_media.txt de nbsu.
Le rapport NetBackup DeployUtil évalue la consommation réelle de licences logicielles de sauvegarde pour différents modèles de licence - traditionnelle et de capacité. Il est généré dans MS Excel, contient une liste complète des clients de sauvegarde, des informations sur la plate-forme des serveurs redondants, la version de NetBackup utilisée et la quantité de données sauvegardées.
Le rapport Brocade SAN Health décrit la topologie SAN, la configuration de zonage et l'utilisation des liaisons ISL.
Data Domain AutoSupport «parle» de la configuration de la bibliothèque de disques, de l'efficacité du stockage et des performances. Après analyse, nous avons identifié les modèles et obtenu la carte thermique de la charge:
En conséquence, il s'est avéré que le «maillon faible» était la bibliothèque de disques Dell EMC Data Domain 4200, qui fonctionnait en mode VTL.
Nous avons comparé les paramètres réels et les exigences formelles pour le volume des sauvegardes et leur fréquence. Il s'est avéré que la capacité et les performances actuelles de la bibliothèque de disques ne permettent pas de stocker les CD opérationnels avec la période requise. De plus, précisément en raison des limitations de la vitesse de lecture du Dell EMC DD4200, la duplication des informations sur bandes s'est produite dans un mode proche de la limite. Les performances inférieures de DD pour la lecture sont dues au processus gourmand en ressources de réhydratation des informations - restauration de la séquence de blocs à leur forme d'origine avant la déduplication.
Tout indiquait la nécessité de remplacer la bibliothèque de disques obsolète. Le client avait besoin d'un matériel capable de prendre en charge 5 à 6 To de données par heure, avec des contrôleurs supplémentaires pour la tolérance aux pannes et une capacité accrue.
Trois candidats au choix
La suggestion la plus évidente dans ce cas était de remplacer Dell EMC Data Domain par une version plus récente. Ou l'appliance Veritas NetBackup pourrait être une alternative. (Ceci est en grande partie analogue à Data Domain, et dans la même catégorie de prix). Mais les deux options ont soulevé des préoccupations budgétaires.
La troisième option est une solution basée sur des serveurs standard avec déduplication native Veritas NetBackup - Media Server Deduplication Pool (MSDP).
Lorsque nous sommes arrivés au client avec une proposition, il s'est avéré qu'il avait déjà envisagé des solutions basées à la fois sur Veritas NetBackup Appliance et Dell EMC Data Domain d'autres fournisseurs, mais le client n'était pas sûr de leur niveau optimal en termes de rapport prix / résultat. En d'autres termes, notre version sur les serveurs standard s'est avérée utile.
Alors que la banque testait des configurations basées sur Veritas NetBackup Appliance, nous avons conseillé l'équipe informatique du client sur les spécificités de l'utilisation de la déduplication de Veritas, les nuances de la technologie Fibre Transport pour transmettre le trafic SRK sur un SAN, les mécanismes de création de copies synthétiques basées sur la technologie NetBackup Accelerator, et proposé de permettre la vérification de ces technologies. dans le programme de test. Sur la base des résultats des tests, le client a approuvé notre solution basée sur deux serveurs x86 standard avec stockage en bloc, car toute la pile de technologies testées y était implémentée.
Nous avons également préparé une proposition visant à remplacer le Dell EMC Data Domain 4200 par une bibliothèque plus récente. Pour ce projet, le modèle Dell EMC Data Domain 6800 HA a été choisi - un modèle plus puissant, plus spacieux et plus productif. L'avantage de la solution était la haute disponibilité de la bibliothèque dans une configuration à deux contrôleurs. La bibliothèque de disques dans cette configuration n'est plus un point de défaillance unique. Si le contrôleur est perdu, la bibliothèque restera disponible via la technologie NPIV et les travaux de sauvegarde continueront automatiquement.
Dans le cas du choix d'une solution basée sur Data Domain, le client n'avait pas besoin de remplacer le logiciel client du client SRK Enterprise par un client SAN, et la quantité de travail pour «l'intégrer» dans le paysage informatique était minime. C'était un autre avantage pour le Dell EMC Data Domain 6800 HA.
Plus de puissance + DD BOOST
La bibliothèque de disques Dell EMC Data Domain 6800 prend en charge le mode double contrôleur (haute disponibilité) et peut fonctionner non seulement avec le protocole VTL, mais également avec DD BOOST. La nouvelle bibliothèque a une capacité utilisable de 174 To hors déduplication et compression, tandis que la Dell EMC DD4200 était limitée à 130 To. De plus, nous avons estimé la vitesse attendue de la librairie de disques et montré au client qu'elle devrait être de 5,3 à 8 To par heure avec écriture et lecture simultanées, couvrant pleinement ses besoins de sauvegarde et de transfert de données sur bandes.
Le support simultané de DD Boost et VTL s'est avéré utile car il était possible de combiner l'utilisation de technologies en cas de problèmes de compatibilité. Les avantages de DD Boost sont évidents:
- ;
- ( ) (image);
- DD Boost , - NetBackup;
- NetBackup ;
- .
L'écosystème de la banque étant basé sur la virtualisation VMware, NetBackup Accelerator for Vmware est également une fonctionnalité utile de DD Boost. Cette technologie suit les blocs modifiés de VMware CBT (Changed Block Tracking) et, basée sur la technologie de déduplication, crée une sauvegarde complète synthétique pendant une sauvegarde incrémentielle. Dans le même temps, la possibilité de restauration granulaire des fichiers et des applications Microsoft (AD, SQL, Exchange, SharePoint) à partir de sauvegardes de machines virtuelles est préservée.
Plus abordable, mais pas mieux
Notre équipe a calculé les coûts de passage à diverses options pour les nouvelles bibliothèques. Il s'est avéré que la réorganisation du SRK à l'aide de serveurs standard nécessiterait plus de travail d'intégration. Mais le plus désagréable, ce sont les risques supplémentaires pour l'entreprise: remplacement du logiciel de sauvegarde des clients, reconfiguration des politiques et, par conséquent, possible indisponibilité des serveurs les plus critiques (plus de 50 serveurs AIX / Solaris).
En conséquence, le client a choisi de migrer vers Dell EMC Data Domain 6800.
Dell EMC Data Domain 6800 était l'alternative la plus coûteuse. Mais son utilisation a permis de réduire les coûts de modernisation en général: ne pas changer l'infrastructure du RMS, minimiser les risques de perte de données et d'indisponibilité de service, et aussi ne pas abandonner l'ancienne bibliothèque. Donc, ajouter un autre DD au système a plus que doublé la capacité de stockage, rien de moi dans les processus déjà débogués. Le maintien de la prise en charge de VTL ne nécessitait pas de configuration supplémentaire sur les serveurs de médias NetBackup et les clients d'entreprise. Il n'était pas non plus nécessaire de changer le logiciel de sauvegarde du client et les tâches de sauvegarde étaient facilement redistribuées entre les bibliothèques de disques - le DD4200 déjà installé et le nouveau DD6800. Les politiques SLP pour le transfert des sauvegardes sur bandes restent également les mêmes qu'auparavant,seules les données proviennent désormais de deux bibliothèques de disques.
Transition vers un nouveau système
Voici le schéma de solution cible:
Au moment où la nouvelle bibliothèque de disques a été introduite, le besoin d'étendre la capacité de sauvegarde était si urgent que la banque était prête à y sauvegarder la production jusqu'à ce que tous les tests soient terminés. Nous avons réussi à dissuader le client de cette étape. Nous avons effectué toutes les vérifications du programme de test, y compris les tests de basculement destructifs.
La mise en œuvre s'est faite rapidement. Deux semaines plus tard, la banque exécutait une nouvelle bibliothèque de disques. En conséquence, le client a reçu un système avec une plus grande capacité et une marge de performance suffisante pour les prochaines années. Les indicateurs de performance ont même dépassé ceux calculés. Les performances réelles du DD 6800 sont de 8 à 9 To par heure (calculées à partir de 5,3 To) et la capacité, en tenant compte de la déduplication et de la compression, est d'environ 1 pétaoctet.
Parce que nous avons simplement augmenté la capacité de stockage sur disque et que nous n'avons pas changé l'architecture, le coût des licences NetBackup pour la banque est resté le même - rien n'a changé en termes de sauvegarde des données et de nombre de clients. Désormais, la nouvelle bibliothèque fonctionne en parallèle avec le Dell EMC DD 4200, mais sa capacité est tout à fait suffisante pour désactiver sans douleur l'ancienne bibliothèque, si nécessaire.
Une étude approfondie au début du projet en termes de coûts de main-d'œuvre "a dépassé" l'introduction de la nouvelle bibliothèque. En fait, nous avons terminé un petit projet de conseil avec une erreur de calcul des options possibles pour 0 roubles. Mais il s'est avéré que ce n'était pas en vain. Cela a permis au client d'obtenir une justification de la modernisation, de minimiser les risques et de prendre une décision éclairée.
Auteur: Alexey Polyakov, ingénieur concepteur de systèmes de stockage de données, Jet Infosystems