Huawei OceanStor Dorado 18000 V6: quel est son haut de gamme

Nous soutenons bien que l'OceanStor Dorado 18000 V6 est un système de stockage vraiment haut de gamme avec un arriéré décent pour les années à venir. Dans le même temps, nous dissipons les préoccupations courantes concernant les stockages 100% Flash et montrons comment Huawei en tire le meilleur parti: NVMe de bout en bout, mise en cache supplémentaire sur SCM et tout un tas d'autres solutions.









Nouveau paysage de données - nouveau stockage de données



L'intensité de la manipulation des données augmente dans tous les secteurs. Et le secteur bancaire en est une illustration claire. Au cours des dernières années, le nombre de transactions bancaires a plus que décuplé. Comme le montre l' étude du BCG , rien qu'en Russie, entre 2010 et 2018, le nombre de transactions non monétaires utilisant des cartes plastiques a augmenté de plus de trente fois - de 5,8 à 172 par personne et par an. Le point est, tout d'abord, le triomphe des micropaiements: la plupart d'entre nous sont devenus proches de la banque en ligne, et la banque est maintenant à portée de main - au téléphone.



L'infrastructure informatique d'un établissement de crédit doit être prête à relever un tel défi. Et c'est vraiment un défi. Entre autres, si auparavant la banque avait besoin de garantir la disponibilité des données uniquement pendant ses heures de travail, c'est désormais 24/7. Jusqu'à récemment, 5 ms était considéré comme une norme acceptable pour la latence, et alors? Maintenant, même 1 ms, c'est trop. Pour un système de stockage moderne, l'objectif est de 0,5 ms.



Il en va de même pour la fiabilité: dans les années 2010, une compréhension empirique a été formée qu'il suffisait de ramener son niveau aux «cinq douzaines» - 99,999%. Certes, cette compréhension est devenue obsolète. En 2020, il est tout à fait normal que les entreprises exigent 99,9999% pour le stockage et 99,99999% pour l'architecture globale. Et ce n'est pas du tout un caprice, mais un besoin urgent: soit il n'y a pas de fenêtre de temps pour la maintenance des infrastructures, soit c'est minuscule.







Pour plus de clarté, il est pratique de projeter ces indicateurs sur le plan de la monnaie. Le moyen le plus simple est de prendre l'exemple des institutions financières. Le diagramme ci-dessus montre combien chacune des 10 premières banques mondiales gagne en une heure. Rien que pour la Banque industrielle et commerciale de Chine, ce n'est pas moins de 5 millions de dollars. Combien coûtera exactement une heure d'arrêt pour l'infrastructure informatique du plus grand établissement de crédit de Chine (et seules les pertes de profits sont prises en compte dans le calcul!). De ce point de vue, il est clair que la réduction des temps d'arrêt et l'augmentation de la fiabilité, non seulement de quelques pour cent - même d'une fraction de pour cent, sont pleinement justifiées de manière rationnelle. Non seulement pour des raisons de compétitivité accrue, mais aussi simplement pour maintenir des positions sur le marché.



Des changements comparables se produisent dans d'autres industries. Par exemple, dans le transport aérien: avant la pandémie, le trafic aérien ne prenait de l'ampleur que d'année en année, et beaucoup ont commencé à l'utiliser presque comme un taxi. En ce qui concerne les habitudes de consommation, la société a une habitude profondément enracinée d'accessibilité totale des services: à l'arrivée à l'aéroport, nous avons besoin d'une connexion Wi-Fi, d'un accès aux services de paiement, à une carte de la zone, etc. augmenté plusieurs fois. Et les approches, infrastructures, construction, que nous considérions comme acceptables il y a encore un an, deviennent rapidement obsolètes.







Est-il trop tôt pour passer à All-Flash?



Pour résoudre les problèmes mentionnés ci-dessus, du point de vue des performances de l'AFA, les baies 100% Flash, c'est-à-dire les baies entièrement construites sur flash, sont la meilleure solution. À moins que, jusqu'à récemment, des doutes persistent quant à leur fiabilité comparable à celles assemblées sur la base du disque dur et aux hybrides. Après tout, le flash à semi-conducteurs a une métrique telle que le temps moyen entre les pannes ou MTBF. La dégradation des cellules due aux opérations d'E / S, hélas, est une donnée.



Ainsi, les perspectives du All-Flash ont été éclipsées par la question de savoir comment éviter la perte de données dans le cas où les disques SSD seraient condamnés à vivre longtemps. La sauvegarde est une option habituelle, mais le temps de récupération serait trop long en fonction des exigences modernes. Une autre solution consiste à établir un deuxième niveau de stockage sur les lecteurs de broche, mais ce schéma perd certains des avantages d'un système «strictement flash».



Cependant, les chiffres disent le contraire: les statistiques des géants de l'économie numérique, dont Google, ont montré ces dernières années que le flash est plusieurs fois plus fiable que les disques durs. De plus, à la fois sur une courte période et sur une longue période: en moyenne, il faut quatre à six ans avant que les lecteurs flash ne tombent en panne. En termes de fiabilité du stockage des données, ils ne sont en aucun cas inférieurs aux lecteurs magnétiques à broche, ni même les surpassent.







Un autre argument traditionnel en faveur des entraînements de broche est leur prix abordable. Il ne fait aucun doute que le coût de stockage d'un téraoctet sur un disque dur est encore relativement faible. Et si vous ne prenez en compte que le coût du matériel, conserver un téraoctet sur un disque à broche est moins cher que sur un disque SSD. Cependant, dans le contexte de la planification financière, il importe non seulement de savoir combien un appareil particulier a été acheté, mais également quel est le coût total de sa possession pendant une longue période - de trois à sept ans.



De ce point de vue, tout est complètement différent. Même si nous laissons de côté la déduplication et la compression, qui, en règle générale, sont utilisées sur les baies flash et les rendent économiquement plus rentables à exploiter, des caractéristiques telles que l'espace de rack occupé par les supports, la dissipation thermique et la consommation d'énergie demeurent. Et selon eux, la couleur l'emporte sur ses prédécesseurs. En conséquence, le TCO des systèmes de stockage sur flash, en tenant compte de tous les paramètres, est souvent près de la moitié de celui des baies sur des variateurs de broche ou avec des hybrides.



Selon les rapports ESG, les systèmes de stockage Dorado V6 All-Flash peuvent en fait réduire de 78% le coût de possession sur un intervalle de cinq ans, notamment grâce à une déduplication et une compression efficaces et à une faible consommation d'énergie et dissipation thermique. La société d'analyse allemande DCIG les recommande également pour une utilisation comme TCO optimal disponible aujourd'hui.




L'utilisation de disques SSD permet d'économiser de l'espace utilisable, de réduire le nombre de pannes, de réduire le temps de maintenance de la solution et de réduire la consommation d'énergie et la dissipation thermique du système de stockage. Et il s'avère que l'AFA est économiquement au moins comparable aux baies traditionnelles sur les entraînements de broche, et les surpasse souvent.







Royal Flush de Huawei



Parmi nos stockages All-Flash, la première place appartient au système haut de gamme OceanStor Dorado 18000 V6. Et pas seulement parmi les nôtres: dans l'industrie dans son ensemble, il détient le record de vitesse - jusqu'à 20 millions d'IPOS dans la configuration maximale. De plus, il est extrêmement fiable: même si deux contrôleurs volent à la fois, ou jusqu'à sept contrôleurs l'un après l'autre, ou un moteur entier à la fois, les données survivront. Les avantages considérables du «dix-huit millième» sont donnés par l'IA qui y est connectée, y compris la flexibilité dans la gestion des processus internes. Voyons comment tout cela est réalisé.







Dans une large mesure, Huawei a une longueur d'avance car il est le seul fabricant sur le marché à fabriquer lui-même des systèmes de stockage de données - complètement et complètement. Nous avons nos propres circuits, notre propre microcode, notre propre service.



Le contrôleur des systèmes OceanStor Dorado est basé sur le Kunpeng 920, un processeur exclusif et fabriqué par Huawei, et utilise le contrôleur de gestion intelligent de la carte mère (iBMC), également le nôtre. Les puces AI, à savoir l'Ascend 310, qui optimisent les prédictions de panne et donnent des recommandations pour les paramètres, sont également huaves, tout comme les cartes d'E / S - le module d'E / S intelligentes. Enfin, les contrôleurs des disques SSD sont conçus et fabriqués par nos soins. Tout cela a servi de base à l'élaboration d'une solution intégralement équilibrée et performante.







, . 40 OceanStor Dorado 18000 V6 metro- : IOPS, - .








NVMe



Les derniers systèmes de stockage de Huawei prennent en charge NVMe de bout en bout, sur lequel nous nous concentrons pour une raison. Les protocoles d'accès au stockage traditionnellement utilisés ont été développés dans l'antiquité informatique ancienne: ils sont basés sur des commandes SCSI (bonjour, années 1980!), Qui tirent de nombreuses fonctions pour assurer la compatibilité descendante. Quelle que soit la méthode d'accès que vous utilisez, la surcharge du protocole est colossale dans ce cas. Par conséquent, les stockages qui utilisent des protocoles SCSI ont une latence d'E / S qui ne peut pas être inférieure à 0,4–0,5 ms. À son tour, étant un protocole créé pour travailler avec la mémoire flash et se débarrasser des béquilles dans un souci de rétrocompatibilité notoire, NVMe - Non-Volatile Memory Express - réduit la latence à 0,1 ms, de plus, pas sur les systèmes de stockage, mais sur l'ensemble de la pile, de hôte aux lecteurs. Pas étonnant,que NVMe est conforme aux tendances de développement des stockages de données dans un avenir prévisible. Nous avons également misé sur NVMe - et nous nous éloignons progressivement du SCSI. Tous les systèmes de stockage Huawei produits aujourd'hui, y compris la gamme Dorado, prennent en charge NVMe (bien que, de bout en bout, il ne soit implémenté que sur les modèles avancés de la série Dorado V6).







FlashLink: une poignée de technologie



La technologie de base de toute la gamme OceanStor Dorado est FlashLink. Plus précisément, il s'agit d'un terme qui englobe un ensemble intégral de technologies qui servent à garantir des performances et une fiabilité élevées. Cela inclut les technologies de déduplication et de compression, le fonctionnement du système de distribution de données RAID 2.0+, la séparation des données «froides» et «chaudes», l'enregistrement séquentiel des données sur bande complète (les écritures aléatoires, avec des données nouvelles et modifiées, sont agrégées dans une grande pile et écrites séquentiellement, ce qui augmente la vitesse lire écrire).



Entre autres choses, FlashLink comprend deux composants importants: le nivellement de l'usure et le nettoyage global de la mémoire. Cela vaut la peine de s'y attarder séparément.



Pratiquement n'importe quel SSD est un système de stockage miniature avec un grand nombre de blocs et un contrôleur qui assure la disponibilité des données. Et cela est assuré, entre autres, par le fait que les données des cellules «tuées» sont transférées vers celles «non tuées». Cela garantit qu'ils peuvent être lus. Il existe différents algorithmes pour ce transfert. En général, le contrôleur essaie d'équilibrer l'usure de toutes les cellules de stockage. Cette approche présente un inconvénient. Lorsque les données se déplacent à l'intérieur d'un SSD, le nombre d'opérations d'E / S qu'il effectue est considérablement réduit. Pour le moment, c'est un mal nécessaire.



Ainsi, si le système possède beaucoup de disques SSD, une «scie» apparaît sur le graphique de ses performances, avec des hauts et des bas nets. Le problème est qu'un lecteur du pool peut démarrer la migration de données à tout moment et que les performances globales sont supprimées à la fois de tous les disques SSD de la baie. Mais les ingénieurs de Huawei ont compris comment éviter la «scie».



Heureusement, les contrôleurs dans les disques, le contrôleur de stockage et le microcode de Huawei sont «natifs», ces processus dans OceanStor Dorado 18000 V6 sont lancés de manière centralisée, de manière synchrone sur tous les disques de la matrice. De plus, à la commande du contrôleur de stockage et précisément lorsqu'il n'y a pas de forte charge sur les E / S.



: , -, , , : Wear Leveling, .




De plus, le contrôleur système voit ce qui se passe dans chaque cellule du lecteur, contrairement aux systèmes de stockage des fabricants concurrents: ils sont obligés d'acheter des supports à semi-conducteurs auprès de fournisseurs tiers, c'est pourquoi les détails au niveau de la cellule ne sont pas disponibles pour les contrôleurs de ces stockages.



En conséquence, l'OceanStor Dorado 18000 V6 a une très courte période de perte de performance pendant le nivellement d'usure, et elle est effectuée principalement lorsqu'aucun autre processus n'est perturbé. Cela donne des performances élevées et constantes sur une base constante.







Ce qui rend l'OceanStor Dorado 18000 V6 fiable



Dans les systèmes de stockage de données modernes, quatre niveaux de fiabilité sont distingués:



  • matériel, au niveau du lecteur;
  • architectural, au niveau des équipements;
  • architecture avec la partie logicielle;
  • cumulative, se référant à la décision dans son ensemble.


Puisque, rappelons-nous, notre société conçoit et fabrique tous les composants du système de stockage lui-même, nous garantissons la fiabilité à chacun des quatre niveaux, avec la possibilité de suivre en profondeur ce qui se passe sur lequel d'entre eux en ce moment.







La fiabilité des disques est principalement garantie par le nivellement d'usure et le nettoyage global de la mémoire décrits précédemment. Lorsqu'un SSD ressemble à une boîte noire pour le système, il n'a aucune idée de la façon dont les cellules s'usent. Pour l'OceanStor Dorado 18000 V6, les disques sont transparents, ce qui permet d'équilibrer uniformément tous les disques de la matrice. Ainsi, il s'avère allonger considérablement la durée de vie des SSD et garantir un haut niveau de fiabilité de leur fonctionnement.







En outre, des cellules redondantes supplémentaires affectent la fiabilité du lecteur. Et avec une simple réserve dans le système de stockage, les cellules dites DIF sont utilisées, qui contiennent des sommes de contrôle, ainsi que des codes supplémentaires qui permettent à chaque bloc d'être sauvé d'une seule erreur, en plus de la protection au niveau de la matrice RAID.







La solution SmartMatrix est la clé de la fiabilité architecturale. En bref, ce sont quatre contrôleurs qui se trouvent sur un fond de panier passif dans le cadre d'un moteur. Deux de ces moteurs - respectivement, avec huit contrôleurs - sont connectés à des étagères communes avec des lecteurs. Grâce à SmartMatrix, même si sept contrôleurs sur huit cessent de fonctionner, l'accès à toutes les données, en lecture et en écriture, demeure. Et si vous perdez six des huit contrôleurs, vous pouvez même continuer la mise en cache.







Les cartes d'E / S sur le même fond de panier passif sont disponibles pour tous les contrôleurs, à la fois frontaux et principaux. Avec ce schéma de connexion à maillage complet, peu importe ce qui échoue, l'accès aux disques est toujours préservé.







Il est plus approprié de parler de fiabilité de l'architecture dans le contexte de scénarios de défaillance contre lesquels le système de stockage peut se protéger.



Le stockage survivra à la situation sans perte si deux contrôleurs «tombent», y compris simultanément. Une telle stabilité est obtenue du fait que tout bloc de cache a certainement deux copies supplémentaires sur des contrôleurs différents, c'est-à-dire qu'il existe au total en trois copies. Et au moins un est sur un moteur différent. Ainsi, même si le moteur entier cesse de fonctionner - avec ses quatre contrôleurs -, il est garanti que toutes les informations qui se trouvaient dans la mémoire cache seront sauvegardées, car le cache sera dupliqué dans au moins un contrôleur du moteur restant. Enfin, avec une connexion en guirlande, vous pouvez perdre jusqu'à sept contrôleurs, et même s'ils sont éliminés par blocs de deux - et encore une fois, toutes les E / S et toutes les données de la mémoire cache seront sauvegardées.







Par rapport aux stockages haut de gamme d'autres fabricants, on peut voir que seul Huawei offre une protection complète des données et une disponibilité totale, même après la mort de deux contrôleurs ou de l'ensemble du moteur. La plupart des fournisseurs utilisent un schéma avec des paires de contrôleurs auxquelles les disques sont connectés. Malheureusement, dans cette configuration, si deux contrôleurs tombent en panne, il existe un risque de perdre l'accès aux E / S du disque.







Hélas, la défaillance d'un seul composant n'est pas objectivement exclue. Dans ce cas, les performances ralentiront pendant un certain temps: il est nécessaire de reconstruire les chemins et de reprendre l'accès pour les opérations d'E / S par rapport aux blocs qui sont soit venus pour l'écriture, mais qui n'ont pas encore été écrits, ou qui ont été demandés pour la lecture. L'OceanStor Dorado 18000 V6 a un temps de reconstruction moyen d'environ une seconde - beaucoup moins que son analogue le plus proche de l'industrie (4 secondes). Ceci est réalisé grâce au même fond de panier passif: lorsque le contrôleur tombe en panne, les autres voient immédiatement ses E / S, et en particulier quel bloc de données n'a pas été ajouté; en conséquence, le contrôleur le plus proche reprend le processus. D'où la possibilité de restaurer les performances en une seconde seulement. Il faut ajouter que l'intervalle est stable: une seconde par contrôleur,deuxième pour un autre, etc.







Dans le fond de panier passif OceanStor Dorado 18000 V6, toutes les cartes sont disponibles pour tous les contrôleurs sans adressage supplémentaire. Cela signifie que n'importe quel contrôleur est capable de récupérer des E / S sur n'importe quel port. Quel que soit le port d'E / S du port frontal, le contrôleur sera prêt à le résoudre. D'où - le nombre minimum de transferts internes et une simplification notable de l'équilibrage.



L'équilibrage frontal est effectué à l'aide du pilote de multiacheminement, et l'équilibrage est également effectué dans le système lui-même, puisque tous les contrôleurs voient tous les ports d'E / S.







Traditionnellement, toutes les baies Huawei sont conçues de manière à ne pas avoir un seul point de défaillance. Tous ses composants peuvent être remplacés «à chaud» sans redémarrer le système: contrôleurs, modules de puissance, modules de refroidissement, cartes d'E / S, etc.







Une technologie telle que RAID-TP améliore également la fiabilité du système dans son ensemble. C'est le nom d'un groupe RAID qui vous permet de vous protéger contre la panne simultanée de trois disques maximum. De plus , une reconstruction de 1 To prend systématiquement moins de 30 minutes. Meilleurs résultats enregistrés - huit fois plus rapides qu'avec la même quantité de données sur un entraînement de broche. Ainsi, il est possible d'utiliser des disques extrêmement volumineux, disons 7,68 ou même 15 To, sans se soucier de la fiabilité du système.



Il est important que la reconstruction ne soit pas effectuée dans le disque de secours, mais dans l'espace de réserve - la capacité de réserve. Chaque disque dispose d'un espace de stockage dédié utilisé pour la reprise après sinistre. Ainsi, la restauration est effectuée non pas selon le schéma "plusieurs à un", mais selon le schéma "plusieurs à plusieurs", grâce auquel il est possible d'accélérer considérablement le processus. Et tant qu'il y a de la capacité libre, la récupération peut être poursuivie.







Par ailleurs, il convient de mentionner la fiabilité d'une solution de plusieurs stockages - dans un cluster métropolitain, ou, dans la terminologie de Huawei, HyperMetro. De tels schémas sont pris en charge sur toute la gamme de modèles de nos systèmes de stockage de données et peuvent fonctionner à la fois avec un accès aux fichiers et en bloc. De plus, sur le bloc, il fonctionne à la fois via Fibre Channel et Ethernet (y compris iSCSI).



En substance, nous parlons de réplication bidirectionnelle d'un système de stockage à un autre, dans lequel le LUN répliqué se voit attribuer le même LUN-ID que le principal. La technologie fonctionne principalement en raison de la cohérence des caches de deux systèmes différents. Ainsi, pour l'hôte, c'est absolument tout de même de quel côté il vient: ici et là, il voit le même disque logique. Par conséquent, rien ne vous empêche de déployer un cluster de basculement couvrant deux sites.



Pour le quorum, une machine Linux physique ou virtuelle est utilisée. Il peut être situé sur le troisième site et les besoins en ressources sont faibles. Un scénario courant consiste à louer un site virtuel exclusivement pour héberger une machine virtuelle quorum.



La technologie permet également l'expansion: deux stockages - dans un métro-cluster, une plate-forme supplémentaire - avec réplication asynchrone.







Historiquement, de nombreux clients ont formé un «zoo de stockage»: un ensemble de systèmes de stockage de différents fabricants, différents modèles, différentes générations, avec des fonctionnalités différentes. Cependant, le nombre d'hôtes peut être impressionnant, et ils sont souvent virtualisés. Dans de telles conditions, l'une des tâches prioritaires de l'administration est de fournir rapidement, uniformément et commodément des disques logiques pour les hôtes, de préférence de manière à ne pas se plonger dans l'emplacement physique de ces disques. C'est exactement ce à quoi notre solution logicielle OceanStor DJ est destinée, qui est capable de gérer de manière unifiée différents systèmes de stockage et de fournir des services à partir d'eux sans être lié à un modèle de stockage spécifique.







Idem et AI



Comme déjà mentionné, l'OceanStor Dorado 18000 V6 dispose de processeurs intégrés avec des algorithmes d'intelligence artificielle - Ascend. Ils sont utilisés, d'une part, pour prédire les pannes, et d'autre part, pour formuler des recommandations de réglage, ce qui augmente également les performances et la fiabilité du stockage.



L'horizon de prédiction est de deux mois: la machinerie d'IA suppose que cela se produira très probablement pendant cette période, est-il temps de faire une extension, de modifier les politiques d'accès, etc. Des recommandations sont données à l'avance, ce qui permet de planifier à l'avance les fenêtres de maintenance du système.







La prochaine étape du développement de l'IA de Huawei consiste à la porter au niveau mondial. Pendant le service - basculement ou recommandation - Huawei agrège les informations des systèmes de journalisation de tous les référentiels de nos clients. Sur la base des données collectées, une analyse des pannes survenues ou potentielles est effectuée et des recommandations globales sont formulées - basées non pas sur le fonctionnement d'un système de stockage particulier ou même d'une douzaine, mais sur ce qui se passe et se passe avec des milliers de ces appareils. L'échantillon est énorme et, sur cette base, les algorithmes d'IA commencent à apprendre extrêmement rapidement, ce qui rend les prédictions plus précises.



Compatibilité









En 2019-2020, il y avait beaucoup d'insinuations sur la façon dont notre matériel interagit avec les produits VMware. Afin de les arrêter enfin, nous déclarons de manière responsable: VMware est un partenaire de Huawei. Tous les tests imaginables ont été effectués pour la compatibilité de notre matériel avec ses logiciels, et par conséquent, sur le site Web de VMware dans la liste de compatibilité matérielle, les systèmes de stockage actuellement disponibles de notre production sont indiqués sans aucune réserve. En d'autres termes, avec l'environnement logiciel VMware, vous pouvez utiliser le stockage Huawei, y compris Dorado V6, avec une prise en charge complète.







Il en va de même pour notre collaboration avec Brocade. Nous continuons à interagir et à mener des tests d'interopérabilité pour nos produits afin de garantir que nos systèmes de stockage sont totalement interopérables avec les derniers commutateurs Brocade FC.







Et après?



Nous continuons à développer et à améliorer nos processeurs: ils deviennent plus rapides, plus fiables, leurs performances augmentent. Nous améliorons également les puces d'IA - sur leur base, entre autres, des modules sont produits qui accélèrent la déduplication et la compression. Ceux qui ont accès à notre configurateur ont peut-être remarqué que dans les modèles Dorado V6, ces cartes sont déjà disponibles à la commande.



Nous nous dirigeons également vers une mise en cache supplémentaire sur la mémoire de classe de stockage - mémoire non volatile avec des latences particulièrement faibles, environ dix microsecondes par lecture. Entre autres choses, SCM améliore les performances, en particulier lorsque vous travaillez avec du Big Data et que vous résolvez des problèmes OLTP. Après la prochaine mise à jour, les cartes SCM devraient être disponibles à la commande.



Et bien sûr, la fonctionnalité d'accès aux fichiers continuera de s'étendre sur toute la gamme de banques de données Huawei - restez à l'écoute pour nos mises à jour.



All Articles