Construire une entreprise de rêve: gestion de la qualité des données

L'erreur la plus coûteuse de l'histoire, causée par des données initiales incorrectes, est considérée comme le crash de la fusée Ariane 5. Le total des dommages résultant de cet incident est estimé à 0,5 milliard de dollars aux prix du début de 1996.



Un autre, peut-être le plus curieux, a été l'erreur dans l'énorme commande de la SNCF pour 2000 trains en 2014. L'équipe qui a formé les exigences techniques a mesuré personnellement les dimensions des tabliers de plusieurs dizaines de stations. Voulant augmenter le confort, ils fixent la largeur des compositions dos à dos au maximum. Ils ont effectué des mesures dans les environs de Paris - et que dans les régions de nombreuses gares les tarmacs sont plus proches des voies, ils ont déjà appris lors des essais. Le prix d'une erreur est la modernisation de toute l'infrastructure pour des centaines de millions d'euros. Ils seraient là MDM avec les caractéristiques des stations ...



image



Viennent ensuite un grand nombre d'erreurs de change et bancaires, lorsque des données incorrectes dans les détails, les nombres et la valeur des actions placées ont conduit à des milliards de dollars de pertes, voire de faillite.



Cet article poursuit l'article « données de base et intégration » - et aborde plus en détail la question du contrôle de la qualité des données, principalement - des données de base. L'article intéressera particulièrement les responsables informatiques, les architectes, les intégrateurs, ainsi que tous ceux qui travaillent dans des entreprises assez grandes.



Contenu



1. Dictionnaire, types de données commerciales: données de base, informations de référence réglementaires, données opérationnelles.

2. Brièvement sur ce que sont les erreurs.

3. Architecture des solutions DQS.

4. Méthodes techniques et non techniques de traitement des erreurs:

4.1. NSI.

4.2. Données de base.

4.3. Système opérateur.

5. Que faire lorsque rien de ce qui précède n'a aidé - mettre en œuvre DQS.

6. Et comment partager la responsabilité?



Si vous connaissez déjà la terminologie et les problèmes, passez directement à la partie 3, sur l'architecture DQS.



1. Dictionnaire, types de données commerciales



Depuis quelques décennies maintenant, les évangélistes de l'informatique nous ont convaincus que les données sont le nouveau pétrole. Que toute entreprise dépend de plus en plus des informations qu'elle possède. Les départements d'analyse et de données apparaissent non seulement dans les entreprises informatiques, mais aussi dans les secteurs industriels et industriels dans la mesure du possible du «chiffre».



Beaucoup de gens ont déjà eu mal à l'exemple de la façon dont General Electric et Boeing créent des filiales «numériques» et gagnent sur l'énorme quantité d'informations collectées auprès des propriétaires de leurs équipements - avions, turbines, centrales électriques. Ces données leur permettent d'augmenter la fiabilité des équipements, de prédire les pannes possibles, d'économiser considérablement sur les dommages potentiels et, enfin, de sauver simplement la vie des gens!



Les données sont de plus en plus nombreuses, et leur accumulation est non linéairement dépendante de la croissance des entreprises, la croissance est supérieure. Toute entreprise en croissance à un certain stade de son développement (environ au niveau 6-7 sur l'échelle de l' article précédent ) est confrontée à des problèmes de données incorrectes, et il y a toujours plusieurs cas où le coût de ces erreurs s'avère assez élevé.



image

L'image traditionnelle de la croissance des données est presque toujours exponentielle.



Dans le cours des affaires, trois types de données revêtent une importance particulière pour l'entreprise:



  • - — , , . , ( : , , ), , , ..;
  • - () — -, . , : () , , , ;
  • données opérationnelles (aka transactionnelles) - le fait de la vente d'un produit spécifique à un client spécifique, les factures et les actes, les cours suivis, les commandes de courrier et les trajets en taxi - en fonction de ce que fait votre entreprise.


Si NSI peut être comparé à un squelette de soutien, des données de base avec des veines et des artères, alors le système d'exploitation est le sang qui traverse ces veines.



La différenciation des types de données d'entreprise est nécessaire car chacun aura sa propre approche pour travailler sur les erreurs, à ce sujet ci-dessous.



image



2. En bref, quelles sont les erreurs



Les erreurs sont inévitables, elles surviennent toujours et partout et, apparemment, reflètent la nature chaotique de l'univers lui-même. Vous pouvez les considérer comme quelque chose de mauvais, vous fâcher à cause d'eux, mais pensez-y: les erreurs sont au cœur de l'évolution! Oui, chaque espèce suivante est la précédente avec plusieurs erreurs aléatoires dans l'ADN, seules les conséquences de ces erreurs se sont avérées utiles sous certaines conditions.


Les principaux types d'erreurs dont souffre une entreprise:



  • facteur humain. Fautes de frappe de toutes sortes, champs confus et informations mal placées. Actions et étapes oubliées ou manquées accidentellement lors de la saisie (vous avez également 50 champs dans votre carte client?) Statiquement, c'est le type d'erreur le plus probable, donc leur fréquence et leur effet peuvent s'avérer les plus importants. Heureusement, le plus grand nombre de méthodes a été inventé pour les combattre;
  • . , , . , — , . , , . … , , ? , , , CRM : ! !
  • erreurs délibérées. L'employé a délibérément transféré plusieurs millions à lui-même - et a disparu. C'est, bien sûr, un exemple extrême, un crime, mais il y a de nombreuses étapes à franchir pour y parvenir. Par exemple, l'un des clients de CRM se voit attribuer une remise injustement élevée ou le coût de l'article est défini en dessous du prix de revient.


Et si le troisième fait l'objet du service de sécurité de l'information, il a ses propres méthodes, alors nous travaillerons substantiellement avec le facteur humain et l'incomplétude.



3. Architecture des solutions DQS



DQM - gestion de la qualité des données, gestion de la qualité des données.

DQS - système de qualité des données, système [de gestion] de la qualité des données.


Avant de parler directement des systèmes de gestion de la qualité des données (DQS n'est pas tant un logiciel spécifique qu'une approche de travail avec des données), je décrirai l'architecture informatique.



Habituellement, lorsque la question de la gestion de la qualité des données se pose, le paysage informatique est le suivant:



image

(diagramme de l'article précédent)



Où MDM est un système de gestion des données de base et des réglementations, et ESB est un bus de données d'entreprise unique. Une situation fréquente est celle où tous les flux de données et d'informations entre les systèmes ne sont pas encore impliqués dans une boucle commune et que certains systèmes communiquent directement entre eux - cela devra être résolu, sinon un certain nombre de processus constitueront un «point aveugle». pour DQS.



Traditionnellement, à la première étape, DQS est connecté au système MDM, car la gestion de la qualité des données de base est considérée comme une priorité plus élevée que le système d'exploitation. Cependant, à l'avenir, il est inclus dans le bus de données commun comme l'une des étapes des processus, ou présente ses «services» au format API. Dans les chiffres concrets, il y a une différence d'environ dix fois dans la quantité de données entre le premier et le deuxième schéma, ou un niveau sur l'échelle de l'article précédent.



4. Méthodes techniques et non techniques de traitement des erreurs.



La phrase suivante contiendra la pensée la plus triste de cet article. Il n'y a pas de solution miracle. Il n'y a aucun bouton ou système de ce type que vous avez mis en place et les erreurs disparaîtront. En général, il n’existe pas de solution simple et sans ambiguïté à ce problème complexe. Ce qui fonctionne très bien pour une vue ou un ensemble de données sera inutile pour une autre.



Cependant, la bonne nouvelle est que l'ensemble des méthodes techniques et organisationnelles décrites dans cet article ci-dessous réduira considérablement les erreurs. Les entreprises mettant en œuvre l'approche DQM réduisent le nombre d'erreurs détectées de 50 à 500 fois. Le chiffre spécifique est le résultat d'un équilibre raisonnable entre l'effet, le coût et la facilité d'utilisation.



4.1. Informations de référence.



Dans le cas des informations normatives et de référence (en fait, des classificateurs d'état), il existe une solution catégoriquement maximale, et elle est universelle: vous n'avez pas à maintenir vous-même les documents normatifs! Jamais, en aucun cas!



La norme doit toujours et strictement être chargée à partir de sources externes, et votre tâche principale est de mettre en œuvre un tel chargement et d'établir une surveillance opérationnelle en cas de panne.



#1. . : ( ), ( ), ( ).



, , ( - ) . , — ( ).



, : . - , . , . , , … .



( — ), (), (), (), , ( ) — API , .


À la suite de ces mesures, personne dans votre entreprise ne devrait jamais penser à saisir manuellement, par exemple, le taux de change dollar / rouble d'hier. Seulement une sélection de guides téléchargés à partir de sources officielles.



image



La nature catégorique de ce point est due au fait que sa mise en œuvre supprime presque toutes les erreurs de la norme. Et si les erreurs dans les données de base ne peuvent pas être complètement surmontées, alors dans le NSI, il est possible de réduire le nombre d'erreurs à une ou deux par an - et ce ne seront plus vos erreurs, mais des erreurs dans les données d'état.



4.2. Données de base



La stratégie principale pour les données de base peut sembler paradoxale: en faire une norme!



#2. — , ( 5-6 — , ).



MDM, : , . — .



, . . . (, , ) — (). — . -, (, -). , , .



, . , .
#3. , . , , . , , .



- . ? — . . : . , .



Une suite naturelle de cette histoire sera un flux de documents électroniques du personnel - un cahier de travail électronique, des congés de maladie électroniques, etc., ce qui réduira considérablement les coûts de main-d'œuvre pour les agents du personnel. Dans la limite, cela permettra à un agent du personnel de servir non pas 200 à 300 employés, mais plus de 1000.



De plus, tous les employés reçoivent automatiquement des clés de signature électronique - et pourront les utiliser à la fois dans les processus d'affaires internes et dans la gestion des documents avec les clients.



Informations sur les dettes, les condamnations, etc. disponible sous forme ouverte via API acc. services gouvernementaux, l'intégration avec eux est extrêmement simple et permettra à votre entreprise de clôturer un grand nombre de risques à la fois.


4.3. Système opérateur



Il y a déjà plus d'approches ici. Le premier est similaire au précédent - pour connecter des sources d'informations externes.



#4. — , — , — — . - ? .



. . , — , . , , .. .



— -. , . ( , !)



(, ).



, - - ? ( , ) — . , -, , .
#5. : , .



— , , -, ( , ). -, API , . — , . .. , .


Oui, dans tous les processus, il ne sera pas possible de trouver rapidement les sources d'information nécessaires; des recherches et des analyses seront nécessaires. En outre, les sources peuvent s'avérer payées, puis les avantages et les inconvénients sont pesés, mais l'approche fonctionne et a été testée à plusieurs reprises dans la pratique.



Les informations (données) sont une nouvelle huile, et tous les États s'efforcent d'obtenir le maximum d'informations possibles sur leurs sujets, y compris les entreprises, sur tous les processus auxquels ils participent.



Il est même difficile pour nous d'imaginer quelles informations l'État collecte, je peux seulement dire qu'au moment d'écrire ces lignes, environ 20 mille ensembles de données sont présentés sur le portail russe des données ouvertes. Et la Russie n'est qu'au début de cette voie, donc, sur un portail similaire de l'Union européenne, plus d'un million d'ensembles de données ouvertes sont disponibles!



image

www.europeandataportal.eu/en



- Où est DQS ici, - demandera un lecteur attentif?



Et il n'y avait encore rien à son sujet.



Tout ce qui précède est en fait des outils et des méthodes standard pour organiser les processus métier avec un minimum d'erreurs.



5. Que faire lorsque rien de ce qui précède n'a aidé - mettre en œuvre DQS



Sun Tzu enseigne que la meilleure bataille est celle qui est évitée.


La situation avec la mise en œuvre de DQS est quelque peu similaire.



Votre tâche est d'essayer de maximiser la transformation des données de base et même des systèmes d'exploitation en données de référence, et dans certains secteurs, en particulier dans le secteur des services, c'est presque possible à 100%. Par conséquent, surtout dans le secteur bancaire, le degré d'automatisation des processus commerciaux est beaucoup plus élevé que celui de beaucoup d'autres.



Néanmoins, si la bataille ne peut être évitée, vous devez vous y préparer le mieux possible.



À quel niveau de développement de l'entreprise le DQS doit-il être introduit? En tant que processus DQM - par 4-5 (avant les systèmes MDM!), En tant que fonction dédiée à l'organisation - à 7-8.



5.1. DQM en tant que processus



Si votre entreprise dispose d'un système de comptabilité ou de gestion du personnel, vous disposerez d'un processus DQM sous une forme ou une autre. Tous ces systèmes ont un ensemble intégré de règles pour les données d'entrée. Par exemple, le format obligatoire et strict de la date de naissance du salarié, le nom obligatoire des contreparties.



Votre tâche à ce stade sera de construire le processus DQM. Il est le suivant:



  • proposer une règle;
  • tester l'applicabilité et l'adéquation de la règle, la tester sur des cas;
  • élaborer des règlements pour l'application de la règle, communiquer avec les utilisateurs, justifier;
  • mettre en œuvre la production;
  • surveiller les tentatives de contournement de la règle.


Si vous avez réussi à implémenter le MDM dans l'entreprise, alors les points à partir de la seconde ne devraient pas vous poser de difficultés particulières, c'est le travail systématique actuel.



Les plus grandes difficultés dans ce cas surviennent lors de l'élaboration de nouvelles règles.



5.2. des règles



Si pour une telle entité en tant que nom complet, votre imagination se limite au nom et prénom obligatoires, et pour une date - à vérifier «pas plus de cent ans», ne vous découragez pas!



Il existe une excellente technique pour développer de nouvelles règles afin de tester les données les plus inimaginables. Pour le maîtriser, vous n'avez pas besoin d'être à sept pouces du front - et, comme le montre la pratique, tout analyste système ou métier novice, même les opérateurs qui saisissent des données de base, peut le maîtriser.



En fait, il s'agit d'un script pas à pas, qui à l'entrée a la définition de vos données, et à la sortie - un ensemble de règles pour toutes les occasions. La technique, connue sous le nom de taxonomie des données sales, a été développée par un groupe de scientifiques européens des données au début du 21e siècle.



L'essence de l'approche, ainsi que des exemples pratiques, sont donnés dans leur article système, heureusement déjà publié en traduction ici sur Habré - habr.com/ru/post/548164



Si le problème de la qualité des données n'est pas une phrase vide pour vous , puis après une lecture attentive de celui de l'article, vous vous retrouverez dans un état proche de l'atteinte du nirvana :)



Exemple n ° 6 . Typage fort. Si le type de données «date» est utilisé dans la référence, la structure de la date doit être aussi explicite que possible. Si vous avez décidé de gagner deux secondes pour les opérateurs et que vous avez créé un modèle comme "__.__.__" avec un indice "jour, mois, année", assurez-vous que le tout premier jour, les enregistrements "18.04.21", " 21.04.18 »et« 04.18.21 ».


Un bon moyen de saisir une date consiste à utiliser trois champs avec une désignation explicite (jour, mois, année) et un saut rapide lors de la saisie de deux nombres dans chacun des champs. Si vous avez déjà payé quelque chose avec une carte sur Internet, vous comprendrez.



Exemple # 7 . Caractères interdits dans la liste de champs la plus large possible, vérifications de dictionnaire. Par exemple, si nous parlons d'éducation (position) et que les classificateurs de spécialités n'ont pas aidé, vous autorisez l'utilisateur à entrer des données dans le champ de texte, même si les points, les guillemets et les tirets libres y sont interdits ( la liste n'est pas complète). Un exemple d'information dont la qualité augmente: «Docteur en Sciences Techniques», «Docteur en Sciences Techniques», «DTN», «Dr. sciences », etc.




#8. (NULL) — . , / , / — , . — “ ”.



, , . , “”, “”, “”, “” ( .) , , . (“ ”, “, ”) (“ ”, “-”, “ ”). — . , , “” “” — , — . “”, “”…



, , . , , , .


6. DQS?



En matière de gestion et de responsabilité, il n'y a pas de bonnes réponses, mais tout dépend d'équipes et d'individus spécifiques. Un ingénieur de fusée peut être un chef comptable, un artiste peut être un directeur financier et un enseignant du primaire peut être un chef de la sécurité.



La question de la responsabilité du processus DQM est en fait encore plus générale: qui est responsable de la qualité des données dans l'entreprise? Traditionnellement, les utilisateurs métier et le service informatique agissent comme des antagonistes pour répondre à cette question.



Les entreprises entament souvent un dialogue avec la déclaration «nous avons remarqué une erreur dans votre système de données météorologique».



Le service informatique, quant à lui, estime que sa tâche est d'assurer le bon fonctionnement des systèmes et que les données spécifiques que les utilisateurs métier entrent dans le système relèvent de la responsabilité de l'entreprise.



L'établissement d'un processus DQM fonctionnel et l'exécution de DQS est un compromis qui satisfait les deux parties. Le défi pour l'informatique et les analystes est de développer autant de règles et de contraintes que possible sur la saisie des données afin de minimiser le risque d'erreur.



L'attitude «commerciale» est généralement causée par un manque de transparence dans les processus DQM. Cependant, si vous le réduisez à une démonstration claire de l'erreur, la position s'adoucit. Et il peut parvenir à un accord dans le cas de la démonstration des conséquences pour celui qui saisit les données primaires.



Un exemple étonnant de motivation et même de visualisation des conséquences des erreurs est donné dans l'article habr.com/ru/post/347838 - dans cet exemple, un service informatique doté de compétences avancées en analyse commerciale est responsable du processus DQM. De plus, les compétences DQM elles-mêmes ne sont pas difficiles et peuvent être développées par n'importe quel analyste en quelques mois.



Un autre exemple, intéressant car le processus DQM inclut également la gestion de la qualité des processus métiers, est donné dans l'article habr.com/ru/company/otus/blog/526174 .



Résultats



Les conclusions générales de cet article sont paradoxales.



Si la question «qui est responsable de la qualité des données» a été posée à votre entreprise, vous êtes tombé dans un piège. Il n'y a pas de réponse correcte à cela, tk. la question elle-même est fausse. Si vous essayez de suivre cette voie, vous vous rendrez finalement compte que la seule réponse appropriée à cette question («tout») ne vous donnera rien dans la pratique.



L'approche correcte consiste à diviser la question en deux blocs.



Le premier est la construction du DQM en tant que processus, la mise en œuvre du DQS, la formation de règles (non pas sur une base ad hoc, mais comme un processus continu). Cette unité vit là où les fonctions d'analyse sont fortes, généralement en informatique, mais pas nécessairement.



Le deuxième bloc - l'entrée des données primaires elles-mêmes - est le lieu où les décisions sont prises sur des données spécifiques, mais pas au hasard, mais sur la base de toutes les règles. Ainsi, la mise en œuvre de DQS est une étape importante vers une entreprise axée sur les données.



Je vous invite à la discussion!



All Articles