Au début, l'histoire semble assez simple: le système de stockage fonctionne bien pendant trois ans avec une garantie prolongée, le quatrième est relativement normal, et un nouveau est acheté au lieu de l'ancien sur le cinquième. Les fournisseurs vous tirent de l'argent en augmentant le coût du support et toutes sortes de fonctionnalités payantes comme le support VDI. Ce schéma peut-il être rompu? Peut-être oui.
L'entreprise est entrée sur le marché avec une proposition intéressante: un matériel fonctionne toujours, le fait toujours rapidement, le coût du support est le même chaque année, toutes les fonctionnalités sont disponibles immédiatement. Eh bien, c'est-à-dire qu'ils ont juste pris la boîte et de temps en temps ils changent les composants afin qu'ils deviennent obsolètes à peu près à la vitesse du remplacement. Les contrôleurs sont mis à jour tous les trois ans, il est possible de remplacer les anciens disques par des disques plus modernes, c'est-à-dire que l'espace occupé par le système de stockage dans le rack peut non seulement augmenter, mais aussi diminuer, tandis que le volume et les performances augmentent.
En fait, la première chose que vous voyez dans le rack est les poignées avec le nom du modèle, par lesquelles vous pouvez et devez retirer les contrôleurs de la baie.
Cela se fait sans fermer, gagner de l'argent, et la marge de productivité est telle que les systèmes bancaires ne ralentissent pas lors du remplacement. Pour ce faire, vous deviez écrire votre propre système de fichiers (plus précisément, un analogue de RAID), assembler un cluster à l'intérieur et apporter quelques améliorations, tout en éliminant la surcharge héritée des disques durs.
Voyons ce qui s'est passé et comment cela s'est passé. Commençons par l'architecture.
Pour commencer, la procédure de travail avec la baie n'inclut pas les boutons d'alimentation. Absolument. N'aura pas besoin. Pour arrêter, retirez simplement les câbles de la PDU.
Architecture de stockage pure
La société est partie du fait qu'elle a développé à partir de zéro une très bonne architecture, affûtée pour le flash (depuis 2017 - NVMe), et des algorithmes efficaces pour la déduplication et la compression de données. Le calcul était le suivant: le marché disposait alors de baies de disques durs, de solutions hybrides et de SSD 100% flash. Les lecteurs flash étaient chers et les lecteurs de disques lents. En conséquence, ils ont fait irruption dans l'environnement concurrentiel avec des baies flash au prix de la possession de baies de disques.
Nous avons fait ceci:
- Nous avons écrit notre propre système d'exploitation pour les disques. La principale caractéristique est la compression rapide des données avant l'enregistrement, puis le post-traitement avec une puissante déduplication, qui vous permet de les tasser encore plus densément et avec précision.
- Nous n'avons pris que des lecteurs flash (maintenant c'est généralement strictement NVMe) et du matériel puissant pour l'informatique.
Les premières implémentations concernaient les environnements VDI, car les données y étaient très bien compressées. Les algorithmes de déduplication et de compression ont donné un gain de six à neuf fois dans l'espace utilisé, c'est-à-dire qu'avec tous les avantages du 100% flash, ils ont fait baisser les prix d'environ un ordre de grandeur. De plus, le modèle économique m'a soudoyé: un coût fixe pour le support et la possibilité de ne pas changer le matériel. Ensuite, j'ai vu les premiers remplacements de deux racks avec des versions à trois ou six unités, mais je ne pensais toujours pas que ce morceau de fer serait utilisé quelque part en dehors de VDI.
Et puis LinkedIn a commencé à stocker sur ces morceaux de fer. AT&T connecté. Les principales banques et télécoms des États-Unis ont également acheté en prod.
Il s'est avéré que les algorithmes de compression sont tout à fait bien adaptés aux environnements de développement et de test. Après le remplacement du SSD par NVME, la concurrence a soudainement commencé dans les bases de données transactionnelles classiques du segment bancaire. Parce que la baie s'est avérée rapide et fiable en raison de son architecture "à tout moment, nous pouvons perdre deux modules flash quelconques." Ensuite, un tableau flash sur des puces moins chères (QLC) est sorti avec un temps de réponse de 2-4 ms, et non de 1 ms comme dans les modèles haut de gamme, et j'ai commencé à observer la suppression du même VNX et Compellent. Il est devenu clair que le morceau de fer est assez compétitif.
Naturellement, le coût de la tuberculose continuera d'être élevé là où il y a des données incompressibles: chiffrement, archivage, flux vidéo (vidéosurveillance) et bibliothèques d'images, mais parfois de telles implémentations se produisent également lorsqu'un client a besoin de hautes performances. Je connais un cas où une vidéo a été compressée (données apparemment compressées) de 10% supplémentaires.
Mais même pour les bases de données conventionnelles, il s'est avéré tout à fait réalisable à un prix par gigaoctet.
Et c'est là que le modèle de système de stockage «à feuilles persistantes» a commencé à corrompre.
Mise à jour constante
Pendant cinq ans, seuls le châssis et les alimentations restent dans le morceau de fer de l'ancien, en fait. Vous pouvez vous déplacer par à-coups avec les transferts, ou vous pouvez changer de composants comme dans un cluster. En fait, il s'agit du cluster, assemblé uniquement dans une boîte de trois unités (ou six unités). Le fer a été fabriqué à partir de rien pour eux-mêmes. Examinons d'abord l'architecture, puis passons à la raison pour laquelle il est pratique de la changer pièce par pièce.
Les solutions intéressantes sont:
- La puissance de calcul est toujours deux fois plus élevée: il faut remplacer le contrôleur sans dégrader les performances. En même temps, les deux contrôleurs fonctionnent en façade et un contrôleur est utilisé en backend pour écrire sur les modules flash.
- RAID- , N + 2, . , — , . .
- N + 2, , . , . RAID, , , , ( ) , .
- ! , , . , - .
- , ! , , ( ), - . , , , . . , RAID 10.
- — NVMe-, — NVRAM. Optane. — , ( SCM-), .
- . - , , . , .
- 3:1, . 512 , 8 . — , . . HDD, .
- ( ). , .
Mais il ne suffisait pas à l'entreprise d'assembler son architecture et d'écrire un OS de serveur virtuel pour elle. Ils sont entrés eux-mêmes dans le bas niveau des puces flash et ont sorti les leurs. Mais en même temps, ils sont compatibles avec les normes. Ci-dessus se trouve une interface NVMe, à l'intérieur se trouvent des puces de notre propre conception.
Violin a emprunté cette voie, qui leur a autrefois donné des tableaux cosmiquement rapides. Seulement, ils ont créé leur propre standard, mais ici ils utilisent un standard ouvert et accessible au public. Pourquoi est-ce? Le micrologiciel de la puce fait partie du micrologiciel du contrôleur, et par conséquent, le système de stockage sait exactement ce qui se passe sur chaque brique individuelle.
Si dans une étagère de disque ordinaire, chaque module SSD ou NVMe est une petite boîte noire pour un contrôleur, alors il voit tout ici. Il était nécessaire de résoudre le problème d'un gros volume adressable, car les problèmes des baies flash sont les mêmes: gestion de l'usure, ramasse-miettes, etc. Cela se fait par le firmware des contrôleurs.
Autrement dit, comme vous pouvez le voir, le puzzle est le suivant: un endroit bon marché est obtenu en échangeant contre la performance. Des performances élevées signifient une redondance constante du processeur et un RAID. Un nombre excessif de processeurs signifie un post-traitement de compression puissant et la possibilité de perdre n'importe quelle pièce sans perdre de performances. RAID correspond à cette idée. Autrement dit, tous ces avantages donnent à la puce presque gratuitement la possibilité de retirer une partie quelconque du «profit».
Vient ensuite le marketing et propose la déclaration forte "stockage sans âge". Étiquette de prix de support fixe, tous les logiciels inclus, pas de bundles supplémentaires. En raison d'un niveau de service distinct, vous pouvez remplacer les contrôleurs gratuitement tous les trois ans (niveau Evergreen GOLD). Il y a des mises à niveau à mesure que les exigences augmentent: j'ai vu comment XR2 est passé à XR3. J'ai travaillé pendant un an, puis une entreprise est arrivée et a dit que nous avions besoin d'une nouvelle entreprise. Le fournisseur a la possibilité d'échanger d'anciens contrôleurs et d'en obtenir de nouveaux à l'avance. Belle mise à niveau. Les contrôleurs changent juste un à la fois.
La mise à niveau des disques est plus intéressante. Une étagère de service supplémentaire avec des disques vient de l'usine. Les données sont migrées vers l'étagère sans interruption - toutes les données de ces supports qui doivent être remplacées. L'étagère fonctionne avec les contrôleurs principaux (elle a les siens). En fait, c'est un datapack unitaire, un stockage temporaire. Une fois la migration terminée, les disques sont marqués comme OK et l'ingénieur les supprime du châssis. À la place des anciens, il en insère de nouveaux et lance la migration inverse. Cela prend un jour ou plus, mais les applications et le serveur ne sont pas remarqués. Étant donné que ces systèmes de stockage sont souvent chez des fournisseurs de services, il existe la possibilité de remplacement et de mise à niveau simultanés: dans le cadre d'Evergreen GOLD, vous pouvez changer d'anciens disques pour plusieurs nouveaux disques volumineux et rapides, plus acheter les mêmes.
Donc, il est bon de compléter, le point faible est toujours la compression!
Nous avons l'habitude d'entendre cela des utilisateurs de stockage sur disque. Là, l'histoire est standard - la fonctionnalité n'était pas prévue dans le développement de l'architecture - ils ont activé la compression, l'application s'est arrêtée, puis ont passé beaucoup de temps à essayer de tout restaurer sous l'abus de la direction. Comme déjà mentionné, Pure Storage a emprunté un chemin différent - la déduplication avec compression est devenue une fonctionnalité de base non déconnectable. Le résultat est que Pure Storage vaut désormais plus de 15 000 installations. Lors de l'initialisation, vous pouvez cocher la case «fournir des statistiques anonymes», puis votre système de stockage enverra au système de surveillance Pure 1. La garantie pour les bases de données, par exemple, est de 3,5: 1. Il y a des fonctionnalités spécifiques - le même VDI de 7: 1 et plus. Les tableaux ne sont pas vendus dans un endroit humide, mais dans un conteneur utile avec une garantie de livraison supplémentaire,autrement dit, si pendant la migration, votre niveau de compression s'avère inférieur à celui garanti, le fournisseur met plus de disques physiques gratuitement. Le fournisseur affirme que les disques sont livrés dans environ 9 à 10% des cas et que l'erreur dépasse rarement quelques disques. En Russie, je n'ai jamais vu cela auparavant, les coefficients étaient les mêmes sur toutes les installations, sauf le cas où des données cryptées sont «révélées», dont le client n'a pas dit qu'elles étaient cryptées.
En raison de la nature des instantanés, les environnements de test sont très efficaces. Il y a un exemple d'un client qui a fait un dimensionnement 7: 1 dans le calcul et a reçu 14 kopecks pour un.
Le fournisseur déclare ce qui suit:
- Bases de données 3.5: 1 (Oracle, MS SQL).
- Virtualisation de serveur 4.2: 1 (VMware, Hyper-V).
- 7.1: 1 VDI (Citrix, VMware).
- Ratio moyen de 5: 1 sur l'ensemble de la base installée.
Aussi de la fonctionnalité intéressante: l'automatisation et l'intégration avec des pièces de jeunesse à la mode comme Kubernetes, ainsi que la prise en charge complète de VMware vvol. Tout est simple ici - la plupart des clients occidentaux de Pure Storage sont des fournisseurs de cloud comme ServiceNow, dont le cas est d'ailleurs publié sur le site Web. Ils ont l'habitude de tout automatiser autant que possible.
Total
Cela s'est avéré être une chose intéressante, qui a d'abord l'air étrange, puis de plus en plus joyeuse et joyeuse. Cinq ans chez Gartner:
Bien sûr, le modèle économique d'Evergreen n'est pas si bon marché et bon marché, mais il évite un certain nombre d'hémorroïdes et semble assez compétitif lors du calcul du coût de possession pendant plusieurs années.
PS Un meetup en ligne est disponible ci-dessous: "Systèmes de stockage de données par abonnement: vérité ou fiction."