Blacklight est un inspecteur de la confidentialité des sites Web en temps réel.
Cet outil émule des façons d'observer un utilisateur naviguant sur le Web. Les utilisateurs saisissent l'URL souhaitée dans Blacklight, l'inspecteur accède au site Web, recherche les types connus de violations de la confidentialité et renvoie immédiatement une analyse de confidentialité du site sondé.
Le fonctionnement de Blacklight est de visiter chaque site Web avec un navigateur sans tête (navigateur sans interface graphique) exécutant un logiciel spécialisé créé par The Markup. Le logiciel surveille quels scripts sur le site peuvent potentiellement observer l'utilisateur en exécutant sept tests, chacun examinant une méthode d'observation connue différente.
Blacklight surveille les types de surveillance suivants:
- Cookies tiers
- Trackers publicitaires
- Enregistreurs de frappe
- Enregistrement de session
- Empreintes digitales sur toile
- Suivi Facebook
- "Audiences de remarketing" Google Analytics
Plus de détails sur eux et leurs limites sont décrits ci-dessous.
Blacklight est construit sur l'environnement Javascript NodeJS, la bibliothèque Puppeteer Node , offrant un niveau de contrôle élevé sur le navigateur Chromium (Chrome open-source). Lorsqu'un utilisateur entre une URL dans Blacklight, l'outil lance un navigateur sans tête avec un nouveau profil et visite la page d'accueil du site, ainsi qu'une page sélectionnée au hasard plus profondément dans le même site Web.
Qui vous espionne pendant que vous travaillez, étudiez ou surfez sur Internet?
Pendant que le navigateur visite le site Web, il exécute un logiciel spécialisé en arrière-plan qui surveille les scripts et les demandes du réseau pour comprendre quand et comment les données des utilisateurs sont collectées. Pour surveiller les scripts, Blacklight modifie diverses propriétés de l'API Window du navigateur qui peuvent être utilisées pour la prise d'empreintes digitales. Cela permet à Blacklight de garder une trace du script qui a appelé une fonction spécifique à l'aide du package Stacktrace-js . Les requêtes réseau sont collectées à l'aide de l'outil de surveillance contenu dans l'API Puppeteer .
Blacklight utilise des données de script et des requêtes réseau pour exécuter les sept tests répertoriés ci-dessus. Après cela, il ferme le navigateur et génère un rapport pour l'utilisateur.
Il enregistre une liste de toutes les URL demandées par le site Web recherché. En outre, il crée une liste de tous les domaines et sous-domaines demandés. Un outil accessible au public ne sauvegarde pas ces listes à moins que l'utilisateur ne choisisse de partager les résultats avec nous en utilisant l'option appropriée.
Nous définissons les noms de domaine en utilisant la méthode du suffixe public + 1 . Par le concept de domaine propre (domaine propriétaire), nous entendons tout domaine correspondant au site Web visité, y compris les sous-domaines. Par tiers, nous entendons tout domaine qui ne correspond pas au site Web que vous visitez. L'outil compare une liste de domaines tiers des demandes de sites Web à l'ensemble de données Tracker RadarSite Web de DuckDuckGo.
Cette fusion de données permet à Blacklight d'ajouter les informations suivantes sur les domaines tiers trouvés sur le site sous enquête:
- Nom du propriétaire du domaine.
- Catégories attribuées par DuckDuckGo à chaque domaine, décrivant ses objectifs et son intention observables.
Ces informations supplémentaires sur les domaines tiers sont fournies aux utilisateurs comme contexte pour les résultats des tests Blacklight. Entre autres, ces informations sont utilisées pour calculer le nombre de trackers publicitaires présents sur le site.
Blacklight exécute des tests en fonction de l'URL racine de la page saisie dans l'interface de l'outil. Par exemple, si l'utilisateur entre example.com/sports , Blacklight démarre l'exploration à partir de example.com , en abandonnant le chemin / sports . Si l'utilisateur entre sports.example.com , Blacklight commence son exploration sur sports.example.com .
Les résultats des vérifications Blacklight pour chaque domaine demandé sont mis en cache pendant 24 heures; ces rapports mis en cache sont renvoyés en réponse aux demandes ultérieures des utilisateurs du même site Web effectuées dans ces 24 heures. Cela permet d'éviter l'utilisation malveillante de l'outil en tentant de surcharger le site Web avec des milliers de visites automatisées.
Blacklight indique également aux utilisateurs si leurs scores sont plus élevés, plus bas ou à peu près égaux à ceux des 100000 meilleurs sites Web de la liste Tranco . Plus d'informations ci-dessous.
La base de code Blacklight est open source et disponible sur Github ; il peut également être téléchargé en tant que module NPM .
Notre analyse est limitée. Blacklight émule un utilisateur visitant un site Web, mais son comportement automatisé est différent de celui d'un humain, et ce comportement peut déclencher divers types de surveillance. Par exemple, une demande automatisée peut déclencher plus de contrôles de fraude mais moins d'annonces.
Compte tenu de la nature dynamique des technologies Web, il est également possible que certains de ces tests deviennent obsolètes avec le temps. En outre, il peut y avoir de nouvelles utilisations acceptables de la technologie que Blacklight considère comme des violations.
Pour cette raison, les résultats de Blacklight ne doivent pas être considérés comme une décision finale sur les violations potentielles de la confidentialité du site Web. Ils doivent plutôt être considérés comme une étude automatisée initiale nécessitant une étude supplémentaire pour une décision finale.
Précédent travail
Blacklight s'appuie sur divers outils de contrôle de la confidentialité écrits au cours de la dernière décennie.
Il exécute des fonctionnalités Javascript, ce qui lui permet de suivre les appels d'API Javascript du navigateur. Cet aspect du travail est basé sur OpenWPM , un outil de mesure de la confidentialité Web open source créé par Steven Englehard, Gunes Akar, Dillon Reisman et Arvind Narayanan de l'Université de Princeton. Cet outil est actuellement pris en charge par Mozilla.
OpenWPM a été utilisé par le Web Transparency and Accountability Project de Princeton , qui surveillait les sites Web et les services pour étudier la manière dont les entreprises collectent et utilisent les données et induisent les utilisateurs en erreur.
Grâce à une variété d'études menées entre 2015 et 2019, les chercheurs de Princeton ont identifié une variété de technologies de violation de la vie privée. Il s'agit notamment de la prise d' empreintes digitales du navigateur et de la synchronisation des cookies , ainsi que des scripts de recréation de session qui collectent les mots de passe et les données utilisateur sensibles . Un exemple notable est les fuites de données sur les prescriptions et la santé de walgreens.com.
Cinq des sept tests effectués par Blacklight sont basés sur les techniques décrites dans l'étude de Princeton susmentionnée. Il s'agit des empreintes digitales de canevas, de l'enregistrement de frappe, de l'enregistrement de session et des cookies de domaine tiers.
OpenWPM contient du code et des techniques d'autres outils de recherche sur la confidentialité, notamment FourthParty , Privacy Badger et FP Detective :
- FourthParty était une plateforme open-source de mesure de contenu Web dynamique, lancée en août 2011 et maintenue jusqu'en 2014. Il a été utilisé dans diverses études, notamment dans une étude décrivant la façon dont des sites Web comme Home Depot ont divulgué leurs noms d'utilisateur à des tiers. Blacklight utilise la méthodologie de FourthParty pour surveiller la transmission des informations des utilisateurs sur le réseau à des tiers.
- Privacy Badger — , Electronic Frontier Foundation 2014 . .
- FP Detective . 2013 .
Les développeurs de l'analyse des données Blacklight se sont en partie inspirés du site Web Evidence Collector , développé par le contrôleur de la protection des données électroniques (CEPD) de l'Union européenne. Website Evidence Collector est un package NodeJS qui utilise la bibliothèque Puppeteer pour étudier comment un site Web collecte les données personnelles des utilisateurs. Certaines des catégories de données collectées ont été sélectionnées par le CEPD.
Parmi les autres projets qui ont influencé le développement de Blacklight, mentionnons le Web Privacy Census de UC Berkeley en 2012 et la série «What They Know» du Wall Street Journal.
Comment nous avons analysé chaque type de suivi
Cookies tiers
Les cookies de domaine tiers sont de petits éléments de données que les entreprises de suivi stockent dans le navigateur Web d'un utilisateur lorsqu'ils visitent un site Web. Il s'agit d'un morceau de texte, généralement un numéro unique ou une chaîne de caractères, qui identifie un visiteur lors de la visite d'autres sites Web contenant un code de suivi appartenant à la même entreprise. Les cookies de domaine tiers sont utilisés par des centaines d'entreprises pour collecter des profils d'utilisateurs et afficher des publicités personnalisées en fonction de leur comportement.
Les navigateurs populaires - Edge, Brave, Firefox et Safari - bloquent par défaut les cookies de suivi de domaine tiers, et les développeurs Chrome ont annoncé qu'ils les rejetteraient .
Ce que Blacklight teste
Blacklight surveille les demandes du réseau pour l'en-tête "Set-Cookie" et surveille tous les domaines en définissant les cookies à l'aide de la propriété javascript document.cookie . Blacklight identifie les cookies de domaine tiers comme des cookies dont le domaine ne correspond pas au site Web que vous visitez. Nous recherchons dans DuckDuckGo Tracker Radar ces domaines tiers pour voir à qui ils appartiennent, à quelle fréquence ils sont utilisés et quels types de services ils fournissent.
Keylogging
L'enregistrement de frappe est le processus de suivi par des tiers du texte qu'un utilisateur entre sur une page Web avant de cliquer sur le bouton d'envoi. Cette technique est utilisée à diverses fins, notamment l'identification des utilisateurs anonymes , leur mise en correspondance avec des adresses postales et des noms réels.
Il existe également d'autres raisons pour l'enregistrement de frappe, comme la fourniture d'une fonction de saisie semi-automatique. Blacklight n'a aucun moyen de reconnaître l'intention avec laquelle le site Web cible utilise cette technique.
Ce que Blacklight teste
Pour tester si le site enregistre des frappes, Blacklight entre un texte prédéfini (voir annexe) dans tous les champs de saisie, mais ne clique jamais sur le bouton d'envoi. Il surveille les demandes du réseau pour vérifier si les données saisies sont transmises à des serveurs.
Enregistrement de session
L'enregistrement de session est une technologie qui permet à des tiers de suivre et d'enregistrer tous les comportements des utilisateurs sur une page Web, y compris les mouvements de la souris, les clics, le défilement de page et toutes les entrées de formulaire sans même appuyer sur le bouton d'envoi.
Dans une étude de 2017Des chercheurs de l'Université de Princeton ont découvert que les enregistreurs de session collectent des informations importantes telles que les mots de passe et les numéros de carte de crédit. Lorsque les chercheurs ont contacté les entreprises concernées, la plupart d'entre elles ont réagi rapidement et éliminé la cause des violations de données. Cependant, l'étude souligne qu'il ne s'agit pas simplement de bugs, mais plutôt de pratiques dangereuses qui, selon les chercheurs, devraient être complètement arrêtées. La plupart des entreprises qui fournissent la fonction d'enregistrement de session indiquent qu'elles utilisent les données pour donner à leurs clients (les sites Web qui installent la technologie) des informations utiles sur la façon d'améliorer la convivialité du site Web. Une entreprise, Inspectlet, décrit son service comme le suivi «du comportement des utilisateurs individuels sur un site comme si nous nous tenions derrière eux».(Inspectlet n'a pas répondu à un e-mail demandant un commentaire.)
Capture d'écran d'Inspectlet, un fournisseur de services d'enregistrement de session bien connu.
Quels tests Blacklight
Par enregistrement de session, nous entendons le chargement d'un type spécial de script par une société connue pour fournir des services d'enregistrement de session.
Blacklight surveille les demandes du réseau pour des sous-chaînes d'URL spécifiques, qui, selon une liste compilée par des chercheurs de l'Université de Princeton en 2017, ne sont rencontrées que lors de l'enregistrement de sessions.
Parfois, le keylogging est effectué dans le cadre des sessions d'enregistrement. Dans de tels cas, Blacklight signale correctement l'enregistrement de session à la fois comme enregistrement de frappe et enregistrement de session, puisque les deux comportements sont observés, même si les deux tests reconnaissent le même script.
Blacklight reconnaît avec précision les situations dans lesquelles un site Web charge ces scripts, cependant, les entreprises n'enregistrent généralement qu'un échantillon de visites du site, de sorte que tous les utilisateurs ne sont pas enregistrés et non chaque visite.
Empreintes digitales sur toile
Les empreintes digitales font référence à un groupe de techniques qui tentent d'identifier un navigateur sans créer de cookie. Ils peuvent identifier l'utilisateur même s'il a bloqué tous les cookies.
L'empreinte digitale sur toile est un type d'empreinte digitale qui identifie un utilisateur en dessinant des formes et du texte sur la page Web d'un utilisateur, en remarquant la moindre différence dans la façon dont ils sont rendus.
Quatre exemples d'empreintes digitales sur toile trouvées par Blacklight.
Ces différences dans le rendu des polices, l'anti-aliasing, l'anti-aliasing et d'autres aspects sont utilisées par les spécialistes du marketing et d'autres professionnels pour identifier les appareils individuels. Tous les principaux navigateurs Internet, à l'exception de Chrome, tentent de décourager la prise d'empreintes digitales sur le canevas, soit en n'exécutant pas de requêtes de données pour les scripts observés dans de telles pratiques, soit en s'efforçant de normaliser les empreintes digitales des utilisateurs.
L'image ci-dessus montre des exemples de types de canevas utilisés par les scripts d'empreintes digitales. Ces toiles sont généralement invisibles pour l'utilisateur.
Quels tests Blacklight
Nous suivons la méthodologie décrite dans cet articlechercheurs de l'Université de Princeton pour reconnaître quand l'élément HTML canvas est utilisé pour le suivi. Nous utilisons les paramètres suivants pour identifier les toiles à rendre par empreinte digitale:
- Les propriétés de hauteur et de largeur de l'élément canvas doivent être d'au moins 16 px.
- Le test doit être écrit sur le canevas avec au moins dix caractères.
- Le script ne doit pas appeler les méthodes save , restore ou addEventListener du contexte de rendu.
- Le script récupère l'image à l'aide de toDataURL ou d'un seul appel à getImageData spécifiant une zone d'au moins 16 px × 16 px .
Nous n'avons pas vu cela en pratique, mais il est possible que Blacklight puisse à tort qualifier une utilisation judicieuse du canevas pour correspondre à ces heuristiques. Pour s'adapter à cela, l'outil capture l'image rendue par le script et la restitue. Les utilisateurs peuvent déterminer comment le canevas est utilisé en regardant simplement l'image. Les résultats d'un script d'empreinte digitale typique sont présentés ci-dessus.
Trackers publicitaires
Les trackers publicitaires (trackers publicitaires) sont des technologies qui identifient et collectent des informations sur les utilisateurs. Ces technologies sont généralement (mais pas toujours) utilisées dans une certaine mesure avec le consentement des propriétaires du site Web. Ils sont utilisés pour collecter des analyses sur les utilisateurs du site Web, pour cibler les publicités, et les courtiers en données et autres collecteurs de données pour créer leurs profils d'utilisateurs. Ils prennent généralement la forme de scripts Javascript et de balises Web.
Les balises Web sont de petites images 1px x 1px publiées sur des sites Web par des tiers à des fins de suivi. Avec cette technique, des tiers peuvent déterminer le comportement de l'utilisateur: lorsqu'un utilisateur particulier est entré sur le site, le type de son navigateur et l'adresse IP utilisée.
Ce que Blacklight teste
Blacklight vérifie toutes les demandes réseau par rapport à une liste EasyPrivacy d' URL et de sous-chaînes d'URL connues pour être suivies. Blacklight surveille l'activité du réseau pour les demandes adressées à ces URL et sous-chaînes.
Blacklight enregistre uniquement les demandes adressées à des domaines tiers. Il ignore tous les modèles d'URL de la liste EasyPrivacy qui correspondent à son propre domaine d'URL. Par exemple, EFF stocke ses propres analyses, c'est pourquoi il envoie des requêtes à son sous-domaine d'analyse https://anon-stats.eff.org . Si l'utilisateur saisit eff.org , Blacklight ne considère pas les appels à anon-stats.eff.org comme des requêtes vers des domaines tiers.
Nous trouvons ces domaines tiers dans l'ensemble de données DuckDuckGo Tracker Radar pour voir à qui ils appartiennent, à quel point ils sont courants et quels types de services ils fournissent. Nous répertorions uniquement les domaines tiers qui se trouvent dans les catégories de suivi motivé par les annonces de l' ensemble de données Tracker Radar .
Pixel Facebook
Le pixel Facebook est un code créé par Facebook qui permet à d'autres sites Web de cibler leurs visiteurs à l'aide de publicités Facebook. Certaines des actions les plus courantes suivies par un pixel sont la navigation sur une page ou certains contenus, l'ajout d'informations de facturation ou la réalisation d'un achat.
Ce que Blacklight teste
Blacklight recherche les demandes réseau du site menant à Facebook et examine les paramètres de demande de données URL qui correspondent au modèle décrit dans la documentation des pixels Facebook. Nous recherchons trois types de données différents: « événements standard », «événements personnalisés» et « correspondance avancée ».
"Audiences de remarketing" Google Analytics
Google Analytics est la plate-forme d'analyse de site Web la plus populaire aujourd'hui. Selon whotracks.me , 41,7% du trafic web est analysé par Google Analytics. Bien que la plupart des fonctionnalités de ce service soient de fournir aux développeurs de sites Web et aux propriétaires de sites Web des informations sur la manière dont le public d'un site interagit avec lui, cet outil permet également à un site Web de créer des listes d'audience personnalisées en fonction du comportement des utilisateurs, puis de cibler des publicités sur ces visiteurs. Web utilisant Google Ads et Display & Video 360. Blacklight examine les sites qu'il recherche pour cet outil, mais pas la manière dont il est utilisé.
Ce que Blacklight teste
Blacklight recherche les demandes réseau du site sous enquête qui vont à une URL commençant par "stats.g.doubleclick", qui préfixe également l'ID de compte Google avec "UA-". Ceci est décrit plus en détail dans la documentation destinée aux développeurs Google Analytics .
Enquête
Pour déterminer la prévalence des technologies de suivi sur Internet, nous avons testé 100 000 des sites Web les plus populaires de la liste Tranco à l' aide de Blacklight . Les données et le code d'analyse peuvent être trouvés sur Github . Blacklight a réussi à capturer les données de 81 593 de ces URL. Pour le reste, soit la résolution a échoué, soit le délai d'attente s'est produit après plusieurs tentatives, soit la page Web n'a pas pu être chargée. Les pourcentages indiqués ci-dessous sont basés sur 81 617 résultats positifs.
Les principales découvertes faites dans notre revue:
- 6% des sites Web utilisaient des empreintes digitales sur toile.
- 15% des sites Web ont téléchargé des scripts à partir de services d'enregistrement de session bien connus.
- 4% des sites Web ont effectué une journalisation des frappes.
- 13% des sites n'ont pas chargé de cookies de domaine tiers ni de suivi des demandes du réseau.
- Le nombre médian de cookies de domaine tiers est de trois.
- Le nombre médian de trackers publicitaires téléchargés est de sept.
- 74% des sites chargés de la technologie de suivi de Google.
- 33% des sites Web chargés de la technologie de suivi Facebook.
- 50% des sites ont utilisé la fonctionnalité de remarketing de Google Analytics.
- 30% des sites utilisent le pixel Facebook.
Nous avons classé comme technologie de suivi Google toutes les demandes réseau adressées à l'un des domaines suivants:
- google-analytics.com
- Doubleclick.net
- Googletagmanager.com
- Googletagservices
- Googlesyndication.com
- Googleadservices
- 2mdn.net
Nous avons classé comme technologie de suivi Facebook toutes les demandes réseau adressées à l'un des domaines Facebook suivants:
- facebook.com
- Facebook.net
- atdmt.com
Limites
L'analyse de Blacklight est limitée par quatre facteurs principaux:
- Il s'agit d'une simulation du comportement des utilisateurs, et non de leur véritable comportement, qui peut déclencher d'autres réponses du système de suivi.
- Le site Web surveillé peut suivre les actions de l'utilisateur à de bonnes fins.
- Faux positifs (possible avec l'empreinte du canevas): très rarement, l'utilisation raisonnable de l'élément canevas HTML est la même que l'heuristique utilisée par Blacklight pour identifier l'empreinte digitale canevas.
- : Javascript- Blacklight window API . , jQuery, jQuery , Blacklight , . , ; , 100 000 .
En termes de faux positifs, lorsque Blacklight visite un site, ce site peut voir que la demande provient d'ordinateurs hébergés dans l'infrastructure cloud Amazon AWS. Étant donné que les botnets sont souvent utilisés dans l'infrastructure cloud, notre outil peut déclencher un logiciel de reconnaissance de bots sur le site Web, y compris la prise d'empreintes digitales de canevas. Cela peut conduire à de faux positifs pour le test d'empreintes digitales du canevas, même si le test n'est pas utilisé pour suivre les utilisateurs, mais pour reconnaître les botnets.
Pour tester cela, nous avons pris un échantillon aléatoire de 1000 sites du haut de la liste Tranco que nous avons déjà parcouru via Blacklight sur AWS. Nous avons exécuté cet exemple via le logiciel Blacklight sur notre ordinateur local avec une adresse IP à New York et avons constaté que les résultats de l'analyse Blacklight sur site étaient très similaires, mais pas exactement les mêmes que les résultats de l'exécution sur l'infrastructure cloud.
Exemples de résultats: machine locale et AWS
Local | AWS | |
---|---|---|
Empreintes digitales sur toile | 8% | Dix% |
Enregistrement de session | dix-huit% | 19% |
Keylogging | 4% | 6% |
Nombre médian de cookies de domaine tiers | 4 | cinq |
Nombre médian de trackers tiers | 7 | 8 |
Toutes les activités de suivi qui sont invisibles pour l'utilisateur ne sont pas nécessairement malveillantes. Par exemple, l'empreinte digitale sur toile est utilisée pour la prévention de la fraude car elle permet l' identification de l' appareil. Et l'enregistrement de frappe peut être utilisé pour implémenter la fonctionnalité de saisie semi-automatique.
Blacklight ne tente pas de déduire les raisons de l'utilisation des technologies de suivi spécifiques qu'il détecte.
Blacklight ne peut pas non plus déterminer avec précision comment un site Web utilise les données utilisateur qu'il collecte en chargeant des scripts pour enregistrer des sessions et surveiller le comportement des utilisateurs tels que les mouvements de la souris et les frappes au clavier.
Blacklight ne passera pas en revue les conditions de service et les politiques de confidentialité du site Web pour toute divulgation de ses activités de suivi des utilisateurs.
application
Valeurs des champs de saisie Le
tableau ci-dessous répertorie les valeurs que nous avons écrites dans Blacklight pour saisir les champs de saisie sur les sites Web. Nous avons utilisé l' article de Mozilla sur l'attribut de saisie semi-automatique pour référence. Blacklight vérifie également les versions base64, md5, sha256 et sha512 de ces valeurs.
Attribut de saisie semi-automatique | Signification de la lumière noire |
---|---|
Date | 01/01/2026 |
blacklight-headless@themarkup.org | |
Mot de passe | SUPERS3CR3T_PASSWORD |
Chercher | TheMarkup |
Texte | IdaaaaTarbell |
URL | themarkup.org |
Organisation | Le balisage |
Titre de l'organisation | Salle de presse à but non lucratif |
Mot de passe actuel | S3CR3T_CURRENT_PASSWORD |
nouveau mot de passe | S3CR3T_NEW_PASSWORD |
Nom d'utilisateur | idaaaa_tarbell |
Nom de famille | Tarbell |
Prénom | Idaaaa |
Nom | IdaaaaTarbell |
Adresse de rue | Boîte postale # 1103 |
Adresse 1 | Boîte postale # 1103 |
code postal | 10159 |
Nom CC | IDAAAATARBELL |
CC-Prénom | IDAAAA |
CC-Family-Name | TARBELL |
Numéro CC | 4479846060020724 |
CC-Exp | 01/2026 |
Type CC | Visa |
Montant de la transaction | 13371337 |
Remerciements
Nous remercions Gunes Akar (Université de Louvain), Stephen Englehard (Mozilla), Arvind Narayanan et Jonathan Mayer (Princeton Princeton, CITP) pour leurs commentaires et suggestions sur le projet d'article.
La publicité
Les serveurs pour l'hébergement de sites sont épiques de Vdsina.
Nous utilisons des disques NVMe extrêmement rapides d'Intel et n'économisons pas sur le matériel - uniquement des équipements de marque et les solutions les plus modernes du marché!