Qu'y a-t-il dans mon contenu pour vous? Évolution séculaire et principes de base de la personnalisation du contenu

Bonjour% username%! Aujourd'hui, nous allons parler de l'histoire de la personnalisation de contenu, des principes de formation d'une «bulle de contenu» pour chacun de nous, à la fois sur la base de préférences personnelles et sur la base de l'empreinte numérique d'un utilisateur. Eh bien, la conférence sera donnée par Lydia Khramova, une data scientist à QIWI et une enseignante du cours «Profession» ‌Data‌ ‌Scientist‌ »à Skillbox. Elle a essayé de parler des nuances les plus importantes et les plus intéressantes des processus de formation du contenu afin que cet article soit compréhensible par tout le monde, pas seulement par les spécialistes.



Tout le plaisir est sous la coupe!



En parcourant le fil de notre réseau social préféré le matin somnolent, on ne pense guère au fonctionnement de l'algorithme, il fournit des informations qui nous intéressent. Grâce à cela et à d'autres algorithmes, le contenu nous suit partout. Si vous avez de la chance - cela ressemble à une grande couverture confortable avec des photos et de la musique atmosphériques, si vous n'êtes pas chanceux - il arrive derrière nous avec un nuage ennuyeux et collant que vous voulez écarter, bien que ce ne soit pas toujours le cas.



Il semble que nous n'ayons pas remarqué quand le monde physique avait une nouvelle dimension - la dimension du contenu avec ses propres règles et caractéristiques. Mais nous nous y sommes habitués rapidement.



L'abondance d'informations nous fait oublier comment obtenir et tamiser des grains de connaissances et d'expérience - après tout, elles, prêtes et triées, sont déjà dans notre assiette, comme un assortiment de friandises. Mais d'où tout cela vient-il et, surtout, comment pouvons-nous influencer notre environnement de contenu? Et pouvons-nous?



Histoire du classement et de la recherche



Contrairement à la croyance populaire, les outils de sélection et de classement des informations à diverses fins utiles sont une invention assez ancienne. Il n'est pas apparu maintenant, mais à l'ère des catalogues de bibliothèques désormais à moitié oubliés.



Avant l'invention de la presse à livres au XVe siècle, le catalogue de la bibliothèque n'était qu'un inventaire de livres précieux avec leurs titres. C'est l'apparition d'exemplaires imprimés qui a donné lieu à la nécessité de cataloguer et de rechercher facilement les ouvrages nécessaires chez les bibliothécaires et les lecteurs.

Il est assez difficile d'établir qui est exactement devenu le créateur du premier catalogue, certaines sources attribuent son invention à Johann Trithemius, abbé de Spongheim, bibliothécaire, historien et amoureux de la cryptographie, mais la plupart mentionne Gottfried Van Swieten, un fonctionnaire autrichien et préfet de la bibliothèque impériale de Vienne.



C'est Gottfried Van Swieten qui, en 1780, créa le premier catalogue sur fiches, très similaire aux catalogues de bibliothèques modernes - fiches avec le titre du livre, le nom de l'auteur, l'année de publication et une brève description. On peut dire que le catalogue sur fiches est devenu un précurseur des moteurs de recherche modernes - après tout, en fait, c'était la première méta-information - c'est-à-dire des informations sur d'autres informations nécessaires à la recherche et à la navigation. Bien sûr, les modestes cartes de Van Swieten ne pouvaient pas répondre à tous les besoins des lecteurs et des chercheurs - mais elles n'ont été remplacées qu'en 1870 grâce à l'invention du bibliothécaire américain Melville Dewey.



Dewey a travaillé pendant longtemps pour améliorer l'efficacité du catalogage et est arrivé à un système complètement nouveau basé sur la classification des livres par contenu, le système dit décimal. Son idée était basée sur la division de toutes les œuvres en dix sections - du général à la religion, la langue et la géographie et l'histoire. Chaque section, à son tour, a été divisée en dix sous-sections, et ainsi de suite, tandis que le code a été formé à partir des index numériques de la section et des sous-sections, qui ont été indiqués gloire à droite, par exemple:

500 Sciences naturelles et mathématiques

510 Mathématiques

516 Géométrie

En fait, c'était le premier annuaire thématique à l'échelle nationale, vous permettant de trouver facilement toutes les informations dont vous avez besoin. De plus, en raison de l'absence de caractères non numériques dans les index des sujets, le système de Dewey était parfaitement adapté au traitement automatique et est toujours valable dans les bibliothèques aux États-Unis et au Canada.



Cette invention a poussé les bibliographes belges Paul Otle et Henri La Fontaine à une idée encore plus audacieuse: remplacer les livres papier par un système de cartes électroniques avec des fragments d'informations, ce qui leur permettrait de les classer sans l'avis subjectif de l'auteur. En 1934, cette idée est incarnée dans le livre «Monde» de Paul Otlet, qui, selon de nombreux chercheurs, anticipe la création d'Internet. Malheureusement, ce livre est difficile à trouver en russe, je ne donnerai donc qu'une seule citation en anglais:

«Tout dans l'univers, et tout ce qui touche l'homme, serait enregistré à distance au fur et à mesure de sa production. De cette manière, une image en mouvement du monde sera établie, véritable miroir de sa mémoire. De loin, chacun pourra lire du texte, agrandi et limité au sujet souhaité, projeté sur un écran individuel. De cette manière, chacun depuis son fauteuil pourra contempler la création, dans son ensemble ou dans certaines de ses parties. «



Cela nous rappelle nos réalités, n'est-ce pas?



Malheureusement, les idées de Paul Otlet ne sont pas devenues réalité de son vivant et le World Wide Web est né beaucoup plus tard. Et déjà en 1998, avec l'invention de l'algorithme PageRank pour l'évaluation des pages Internet par Sergey Brin et Larry Page, l'ère de la navigation Internet sans fin a commencé.



L'information est devenue disponible, la recherche est pratique et facile. Et avec l'avènement du nouveau stockage et de la puissance de calcul, les entreprises ont commencé à collecter des données.



L'épée à double tranchant du Big Data



L'augmentation des données accumulées promettait de nouvelles opportunités commerciales, allant d'une meilleure connaissance des clients à des produits numériques entièrement nouveaux.



L'analyse des travaux de bijouterie sur le test de chaque hypothèse s'est transformée en une recherche de modèles stables dans d'énormes ensembles de données décrivant les personnes et les phénomènes mondiaux. Cette approche a permis de voir des choses qui n'étaient tout simplement pas disponibles auparavant, de modéliser et d'optimiser divers processus, de la publicité à l'offre de produits, de personnaliser l'expérience client dans différents domaines et de l'améliorer pour le plus grand plaisir du client et de l'entreprise. Ce saut, à mon avis, est comparable au passage d'un inventaire du livre médiéval à un système cohérent de catalogues sur fiches, où chaque objet se voit attribuer sa propre place sur l'étagère et une étiquette.



Néanmoins, travailler avec le Big Data n'est pas encore devenu une panacée pour tout, et il y a plusieurs raisons à cela.



  • , , , . , – , , , .
  • , . , , , , , .
  • , , . , – , .
  • – , , – , -.


Malgré ces limites, de plus en plus d'entreprises trouvent les ressources et les opportunités pour déployer leurs propres services pour personnaliser l'expérience client et augmenter leurs résultats. À partir d'une source de connaissances, les données se transforment en une source de monétisation, parfois assez agressive. Dans certains cas, il y a même des effets secondaires possibles pour le client et l'entreprise: de la surcharge d'informations à la soi-disant bulle de contenu. Et avant d'en parler, découvrons-le - qu'est-ce qui se cache sous le capot des recommandations?



Sous le capot des recommandations personnelles La



plupart des modèles offrant du contenu, des produits ou des services relèvent de l'un des cinq concepts simples.



  1. . , – , , , .
  2. . , / , , .
  3. . , , « – » . , – , .
  4. . , – , . , – , . – , . , , 70- – .
  5. – , .


Recommandations Problèmes et rechargement de l'environnement de contenu



Tous ces modèles fonctionnent plutôt bien (même l'heuristique!), Mais peuvent quand même conduire à des situations désagréables:



  • Sursaturation. De nombreux modèles similaires formés sur des données incomplètes (après tout, chaque entreprise n'a qu'une connaissance) vous attaquent avec les mêmes propositions. Disons que vous êtes un amateur de café. Et donc, ce matin, on vous a offert un merveilleux cappuccino parfumé dans le café le plus proche. La proposition a suscité votre enthousiasme et votre plaisir à absorber la crème. Mais ensuite, une autre poussée vient frapper avec un soupçon de café, une autre bannière - et maintenant il y en a quinze. Combien de tasses de café pouvez-vous boire par jour?
  • – , , / , . , – .
  • – -, .
  • – , , 9 , . , , .
  • – , , , - . , .


De telles situations sont extrêmement indésirables non seulement pour le client, mais également pour l'entreprise, car elles peuvent réduire considérablement le désir de continuer à interagir avec les services annoncés, ou d'utiliser l'un ou l'autre produit ou application.



Une partie importante de ces problèmes peut être corrigée dans le système de recommandation, par exemple, le temps non pertinent ou les recommandations intrusives sont éliminés par une politique et un calendrier de communication bien développés.



Même la bulle de contenu peut devenir moins monotone si vous ajoutez des algorithmes concurrents au système de recommandation qui afficheront des propositions alternatives, ou un élément supplémentaire de caractère aléatoire qui vous offrira quelque chose de complètement nouveau et, si vous êtes intéressé, élargit les limites des recommandations (voir Figure 1).





Figure: 1 Modèles concurrents avec des ajouts aléatoires.



Néanmoins, certaines des conséquences de recommandations imparfaites devront être traitées par nous-mêmes. Quelles méthodes peuvent vous aider à vous battre pour un environnement de contenu agréable?



Comment améliorer votre environnement de contenu



Pour trouver votre chemin vers votre contenu qui soit pertinent et pertinent, essayez de jouer avec les algorithmes autour de vous pour découvrir ce à quoi ils répondent le mieux. Mais avant cela, je propose d'adopter quelques règles simples d'hygiène de la science des données qui vous éviteront les recommandations les plus ennuyeuses.



  • – , , , . – , – , email.
  • – , .
  • – « », , - .
  • Soyez prudent lorsque vous payez des achats - il est préférable d'avoir des instruments de paiement séparés pour tous les membres de la famille, et parfois à des fins distinctes.
  • Désactivez périodiquement le wifi dans les endroits dotés de nombreux réseaux publics.


Sinon, utilisez la recherche active plus souvent et essayez quelque chose de nouveau. La plupart des bons modèles de recommandation utilisent non seulement des données rétro (données sur votre activité sur une longue période), mais également des données sur les actions en cours, ce qui leur donne une priorité plus élevée. Après avoir joué un peu avec les nouvelles demandes, vous pouvez obtenir une partie du contenu en fonction de votre humeur actuelle.



Et si cela ne vous semble pas suffisant, rejoignez les rangs élancés des datascientists pour créer ce système de recommandation très idéal et apprendre toutes les subtilités de l'intérieur. L'apprentissage automatique est indispensable sans un esprit humain curieux!

Sur ce sujet:







  1. www.history.ox.ac.uk/british-medieval-library-catalogues
  2. Fred Lerner, “The story of libraries, from invention of writing to the computer age”, continuum, 2006
  3. en.wikipedia.org/wiki/Gottfried_van_Swieten#As_librarian
  4. en.wikipedia.org/wiki/Dewey_Decimal_Classification
  5. Milena Tsvetkova. – – : . Scientific Enquiry in the Contemporary World: Theoretical basis and innovative approach, 2016, San Francisco, United States. pp.115-128
  6. boxesandarrows.com/forgotten-forefather-paul-otlet
  7. www.mondotheque.be/wiki/images/e/e2/Heuvel_Rayward_Facing_Interfaces.pdf
  8. Sergey Brin, Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. — 1998.
  9. googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html



All Articles