Nous créons une entreprise de rêve : pas de battage publicitaire

Sûrement, des gars en costumes coûteux et avec une langue bien pendue sont apparus plus d'une fois dans votre entreprise, racontant de manière fascinante que l'entreprise ne vivra même pas plusieurs années sans matériel informatique moderne!



Tous ces lacs de données (marais de données), QCD (cimetière de données d'entreprise), l'exploration de données (regarder, ne pas miner), la gouvernance des données (devenir esclave de vos données) et autres ne disparaissent pas de leurs histoires, remplaçant périodiquement l'un l'autre. La durée de vie d'un autre HYIP dépasse rarement un an ou deux, mais si vous le souhaitez, toute technologie presque oubliée sera déterrée pour vous avec grand plaisir.



Dans le même temps, le grand rendez-vous est vendu comme un coffre magique à partir duquel vous pouvez obtenir divers miracles : soit un tapis volant, soit des bottes de marche, soit même une reine shamakhan (qui est pertinente). Mais, en règle générale, un tapis volant est mangé par un papillon magique - et il ne vole plus, les semelles des bottes sont tombées - et y marcher est gênant, mais il n'y a rien à dire sur la reine décrépite.



Dans cet article, je vais essayer de parler des bonnes vieilles technologies qui fonctionnent toujours. À propos de ce que l'on peut apprendre des technologies HYIP ci-dessus - et comment utiliser tout cela pour de simples mortels, comme nous, sans embaucher une foule de scientologues de données avec des salaires> 10 000 $ par mois.



image





L'article poursuit le cycle :

Construire une entreprise de rêve : données de référence et intégration

Construire une entreprise de rêve : gérer la qualité des données



Contenu



1. Big data : énoncé du problème

2. Master data : un classique immortel

3. Comment stocker les données : avez-vous besoin de QCD

4. Normalisation, ou pourquoi avez-vous besoin de data swamps

5. Pourquoi un data scientist a-t-il plus d'analystes et en fait-il moins ?

6. Bus de données vs microservices

7. Comment ne pas du tout entrer dans le battage médiatique ?



1. Big data : énoncé du problème



Le rôle des mégadonnées dans le développement de la civilisation moderne est impressionnant. Mais pas pour la raison que vous pensez.



Si Internet dans chaque village et chaque téléphone est apparu grâce au porno et aux réseaux sociaux (messagers), alors le big data a fait don de milliers de milliards de dollars aux fabricants de disques durs et de RAM.



Le problème est que les avantages réels des mégadonnées modernes (au sens large du terme) pour toute l'humanité sont proches des avantages de la pornographie, c'est-à-dire à quelques exceptions près... zéro !



Comment, vous serez surpris. Après tout, n'importe quel consultant et vendeur en donne une bonne dizaine d'exemples, de General Electric avec ses diagnostics de l'état des moteurs d'avions, à la publicité ciblée de Google !



Le problème, plus précisément, est la répétabilité des résultats. Je vais vous dire un secret que les vendeurs de Big Data ont un banc court. Si vous leur demandez d'autres exemples, la liste se terminera dans la seconde dizaine. Je suis sûr qu'ils pourront nommer beaucoup plus de messagers et de sites pornographiques :) car ils sont tout simplement physiquement plus nombreux.



Bien sûr, il y a un résultat du travail des data scientists, seulement il satisfait rarement les clients. Car, après avoir passé un an de travail et plusieurs millions en équipement et en salaires, ils donnent à la fin des conclusions et des schémas complètement triviaux qui sont évidents pour tout responsable hiérarchique ou spécialiste de terrain. Par exemple, que le produit le plus vendu soit placé au niveau de l'œil humain.



Et General Electric a construit son avantage concurrentiel sur la base des méthodes d'analyse mathématique et de statistiques que l'on peut trouver dans n'importe quel cours de mathématiques pour l'université. Le concept de big data n'existait pas alors.



Mais vous ne pouvez pas faire un battage médiatique sur le calcul, et il est peu probable que les grands managers entendent parler des méthodes bicentenaires de Fourier et Cauchy. Après tout, tout y est ennuyeux, ennuyeux, vous devez beaucoup réfléchir, et il n'y a certainement pas de solution miracle et de pilule magique.



Que faire? Travail! Pendant longtemps, ennuyeux et déprimant, essayant de créer une atmosphère qui encouragerait la réflexion active. Comme dans les exemples canoniques des Bell Labs ou du même GE. C'est tout à fait possible, d'ailleurs, les gens les plus ordinaires, comme vous et moi, en sont capables, si vous les motivez de la bonne manière.



Et il faut commencer par...



2. Master data : un classique immortel



Les données de référence sont une approche de structuration de l'information qui se trouve dans une entreprise. Si à un moment donné vous constatez que l'une ou l'autre entité est utilisée simultanément dans deux ou plusieurs systèmes de votre entreprise (par exemple, une liste d'employés sur un site interne, dans la base de données 1C-Comptabilité ou un système CRM), vous devez placez-le dans un système de données maître (MDM) séparé - et forcez tous les systèmes à n'utiliser que ce répertoire. En cours de route, il sera nécessaire que tous les participants se mettent d'accord sur les champs et attributs requis, ainsi que de proposer de nombreuses règles pour contrôler la qualité de ces données.



Les data scientists de moins de 30 ans pensent que la fenêtre d'adoption du MDM a commencé vers 2008 et s'est terminée vers 2012-15. Qu'après cela, il y avait tellement de nouveaux outils (toutes sortes de hadoop et d'étincelles) que vous n'avez plus besoin de vous soucier des données de base, vous n'avez pas besoin d'aller négocier avec les propriétaires de tous les systèmes, pensez aux conséquences du choix du Architecture MDM et chaque attribut spécifique dans chaque répertoire.



Malheureusement pour eux et heureusement pour vous, cette fenêtre ne s'est pas fermée. Les systèmes MDM sont toujours aussi pertinents que les systèmes de comptabilité ou d'interaction client. Et encore faut-il réfléchir et négocier.



3. Comment stocker les données : avez-vous besoin de QCD



Non, vous n'avez pas besoin de cimetières de données d'entreprise.



L'idée qu'à des fins d'analyse, vous devez disposer d'ensembles spécialement préparés de toutes les données (les idéologues QCD non seulement mettent ce mot en gras, mais le soulignent également avec une double ligne) dans votre entreprise est absurde. Le taux d'utilisation réel de ces données est minime, 99% d'entre elles ne sont jamais utilisées.



Cependant, l'idée d'ensembles de données préfabriqués est bonne en soi. Seulement, ils doivent être préparés avant une utilisation potentielle, pas plus tôt. Et, bien sûr, vous devez avoir une méthodologie de travail pour une telle formation.



4. La normalisation, ou pourquoi avez-vous besoin de marais de données



Il s'agit de la section sur le « lac de données » ou le « marais de données ». Les légendes disent que vous pouvez vider toutes les données indistinctement dans un gros tas. Pas besoin de convertir toutes les données en un seul format, pas besoin de les normaliser et de les nettoyer !



Et qu'il existe par exemple un logiciel spécial qui vous permet de tirer des conclusions utiles de ce dépot de données et de sortir, tel un magicien de sa manche, les régularités dont vous avez besoin.



En pratique, la conclusion la plus « précieuse » que vous puissiez tirer du data lake est que votre entreprise ne travaille quasiment pas pendant les vacances de janvier.



Et la principale question est de savoir comment certains escrocs ont réussi à convaincre au moins quelqu'un de l'efficacité de cette approche. J'ai tendance à l'hypnose :)



5. Pourquoi un data scientist obtient-il plus d'analyses et en fait-il moins ?



Marketing, présentation de soi compétente, confiance en soi maximale. Je n'exclus pas non plus l'hypnose :)



6. Bus de données vs microservices



Mon exemple préféré d'abus de technologie. Dans toute entreprise assez grande, à un certain stade de développement, un bus de données apparaît. Pas nécessairement le même et "en science", mais la fonction elle-même est mise en œuvre avec succès. Vous pouvez en savoir plus et systématiquement sur l'approche dans le dernier article .



Comme alternative, il est proposé aux jeunes entreprises en pleine croissance d'utiliser des microservices ou des ensembles d'API ouvertes, différents pour chaque système utilisé.



Oui, les microservices sont très utiles lorsque vous écrivez un produit mono auquel d'autres peuvent s'intégrer. Les microservices ont tendance à être assez faciles à écrire, à tester et n'ont pas besoin d'être négociés pendant le développement. Pour cela, ils sont aimés à la fois par les développeurs et les gestionnaires.



Comme le montre la pratique, deux systèmes sont parfaitement intégrés via des microservices. Tous les trois sont bons. Tout cinq est tolérable si vous documentez tout très soigneusement et l'accrochez avec des autotests.



Déjà sur dix systèmes, l'architecture qui avait fière allure au départ, l'approche se transforme en une sorte d'enchevêtrement, une toile, lorsque certains flux tombent et ne fonctionnent pas pendant des mois.



image



Sur plusieurs dizaines de systèmes (le chiffre semble seulement impressionnant, dans toute entreprise on utilise beaucoup plus de systèmes d'information) l'approche s'enfouit. Et après quelques années, il y a une sorte de centralisation et un bus. En règle générale, il est fait par d'autres personnes.



7. Comment ne pas du tout entrer dans le battage médiatique ?



Vous avez vu plusieurs exemples de battage médiatique lorsqu'une approche ou une technologie peut être inutile. Et cela en tenant compte du fait que, selon les statistiques mondiales, la part des projets achevés avec succès pour le développement et la mise en œuvre dans l'informatique dépasse rarement 40 %.



L'arrière-goût de projets échoués ou inutiles peut s'avérer tel que l'entreprise abandonnera temporairement complètement les initiatives informatiques - jusqu'à ce qu'un autre responsable influent « chevauche » un autre battage médiatique.



Afin de ne pas entrer dans le battage médiatique, avant la prochaine mise en œuvre, vous devez savoir ce qui suit :



- la technologie a un grand "banc". Le nombre d'exemples d'applications réussies devrait dépasser quelques dizaines, et ils ne devraient pas donner l'impression qu'« une sorte de magie se produit ici » ;

- la technologie doit réussir le "test de grand-mère" (l'explication de l'essence doit être si claire que même votre grand-mère peut la maîtriser - je le répète, pas de magie);

- la technologie doit avoir une liste spécifique et numérisée des réalisations que votre entreprise recevra en conséquence. Les implémenteurs de MDM, CRM ou du même service de comptabilité 1C peuvent passer des heures à parler des avantages de leur solution en utilisant l'exemple de vos tâches spécifiques. Les implémenteurs de Big Data "en général" commencent à dire que nous allons d'abord collecter un tas de données, puis nous verrons quoi en faire ;

- et, enfin, la technologie doit être falsifiée (au sens du critère de Popper ), c'est-à-dire l'exécutant doit clairement comprendre la portée de son application et sa pertinence - et être capable d'argumenter contre(!) la mise en oeuvre. Pas besoin de planter des clous avec un microscope, et en général, par exemple, si vous avez peu de clients, avez-vous besoin d'un CRM super duper ?



Dans l'ensemble, cela suffit déjà pour continuer à travailler et ne pas être distrait par les HYIP.



Pouvez-vous suggérer d'autres critères?

Je vous invite à la discussion !



All Articles