Trois baleines de l'analyse linguistique, sans lesquelles InfoWatch Traffic Monitor ne peut pas fonctionner

image



salut! Aujourd'hui, nous allons parler de la façon dont la linguistique est intégrée dans le travail d'un système DLP et comment elle nous aide à protéger les données importantes contre les attaques malveillantes.



Récemment, la nécessité pour les entreprises de protéger leurs données contre les fuites d'informations confidentielles s'est considérablement accrue. Le passage des employés à un mode de travail à distance a conduit à une augmentation significative des cyberattaques et des crimes dans le domaine de la sécurité de l'information: selon les rapports des analystes, au premier tiers de 2020, le nombre de fuites d'informations confidentielles provenant d'entreprises russes a augmenté de 38%, et cette tendance continue de se développer.



En règle générale, les documents juridiques, les documents financiers, les données personnelles des employés et des clients, etc. sont attaqués. Pour protéger les données confidentielles des intrus, les entreprises installent des systèmes DLP (Data Loss Prevention) pour éviter les fuites d'informations.



La technologie d'analyse linguistique est profondément intégrée dans le travail de nombreux systèmes DLP, car l'analyse de contenu est une base invariable pour filtrer le trafic afin de détecter les violations, et la qualité de la technologie détermine en grande partie la qualité du produit lui-même.



Analyse linguistique: comment ça marche



La technologie d'analyse linguistique permet de déterminer automatiquement le sujet et si l'information analysée est confidentielle, en fonction des termes et de leurs combinaisons rencontrés .



Dans un premier temps, nous procédons à une première analyse des documents: après que l'entreprise cliente ait déterminé le volume et le contenu des documents qui sont confidentiels et qui doivent être protégés (il est souhaitable qu'il existe au moins dix échantillons de documents pour chaque catégorie d'informations protégées). Dans le cas où le client ne comprend pas quels documents il doit fournir, vous pouvez vous concentrer sur la liste des informations restreintes adoptées dans l'organisation du client), le linguiste met en évidence les termes- des mots ou expressions caractéristiques d'une industrie particulière et précisant les spécificités du texte. Il est extrêmement important ici que les termes se retrouvent aussi souvent que possible dans les textes de documents dans un secteur et extrêmement rarement dans un autre (par exemple, pour le secteur bancaire, les termes typiques peuvent être «solde de trésorerie», «services de règlement et de trésorerie» ou «dépôt»).



- De plus, les termes sont catégorisés . Le nombre de catégories n'est pas déterministe, cependant, plus les catégories sont sélectionnées, plus la classification sera hétérogène. Les catégories regroupent les termes en groupes conceptuels généraux pour aider à organiser l'information plus clairement.



Lorsqu'un terme est catégorisé, un linguiste peut le définir comme «caractéristique». Les termes caractéristiques incluent les termes qui se trouvent uniquement dans la catégorie dans laquelle ils sont saisis et qui n'apparaissent dans aucune des autres catégories. Si même un de ces termes se trouve dans le texte intercepté, ce texte appartient automatiquement à la catégorie dans laquelle se trouve ce terme.



En général, il peut y avoir de trois termes dans une catégorie (le nombre minimum de termes non caractéristiques, lors de la détection desquels le système détecte le texte comme confidentiel) à plusieurs milliers, selon les spécificités de la catégorie. S'il s'agit d'une catégorie constituée uniquement de termes caractéristiques (par exemple, "Drogue", "Terrorisme", etc.), alors il peut y avoir plusieurs milliers de termes dans la catégorie. Si une catégorie est constituée de termes non caractéristiques (en règle générale, il s'agit de catégories basées sur la documentation de l'entreprise - personnel, comptabilité, informations juridiques), il est alors conseillé de limiter le nombre de termes à quelques dizaines (de trois à cinquante).



image



- Ensuite, le linguiste entre les catégories dans la base de données de filtrage de contenu (BCF), sur la base de laquelle l'analyse linguistique a lieu. La base de filtrage de contenu est un dictionnaire structuré hiérarchiquement qui comprend une liste de catégories et de termes.



BKF fonctionne comme un classificateur, sur la base duquel se produit la distribution thématique des informations analysées.



Lors de l'ajout de termes non caractéristiques au BCF, un poids leur est attribué- un nombre de 1 à 10 (par défaut, lors de la création d'une catégorie, le poids est mis à 5). Les valeurs des poids pour les termes de la catégorie doivent être proportionnelles au rapport des fréquences d'utilisation des termes dans le texte, et ce sont précisément les fréquences d'utilisation des termes les uns par rapport aux autres - leur fréquence par rapport aux mots du texte qui ne sont pas inclus dans le BKF n'a pas d'importance, par exemple, s'ils sont dans l'une des catégories BKF nous allons introduire les termes «glokaya», «kuzdra» et «shtekto» et leur attribuer les mêmes poids (peu importe s'ils ont un poids de 10 ou 1), puis le texte «Glokaya kuzdra shteko bumbled les côtés et les boucles bokrenka» sera détecté avec pertinence 1. dans le texte transmis, les mots «glokaya» et «kuzdra» apparaîtront 10 fois, et «shteko» - 100 fois, la pertinence du texte de la catégorie avec des poids égaux pour tous les termes diminuera et sera d'environ 0,69.Dans ce cas, il est raisonnable de fixer le poids des termes «gloka» et «kuzdra» à 1, et au terme «shteko» - 10. La pertinence du texte envoyé deviendra alors 1. Il est clair qu'il n'est pas toujours possible d'observer une proportion aussi stricte, mais il faut s'y efforcer.



Pour déterminer la pertinence du texte d'une catégorie particulière, l'un des modèles de recherche classiques est utilisé - le modèle vectoriel. C'est une manière assez populaire de travailler avec divers objets linguistiques.



image



L'idée principale peut être décrite comme suit: il y a un certain espace défini par différents termes (dans notre cas, il s'agit d'un document intercepté par le système contenant des informations textuelles). Un vecteur est construit pour le document intercepté, la valeur de chaque coordonnée du vecteur sera le nombre de fois où le terme correspondant est utilisé dans ce document. Un vecteur similaire est construit pour chaque catégorie BKF. La dimension des vecteurs est la même pour tous les textes analysés et est égale au nombre de mots dans le BKF.



Ensuite, la valeur de pertinence des vecteurs peut être calculée comme le cosinus de l'angle entre eux, en utilisant le produit scalaire et la norme: La



image



similitude cosinus du document intercepté et des termes du BKF varie dans la plage de 0 à 1: plus cette valeur est élevée, plus le document est similaire à l'une ou l'autre catégorie.



La technologie d'analyse linguistique basée sur des bases de filtrage de contenu présente un certain nombre d'avantages par rapport aux autres technologies de classification de texte (qui sont également utilisées par les linguistes d'InfoWatch pour analyser les documents, mais nous en parlerons plus tard).



La principale caractéristique distinctive de BKF est sa «flexibilité» et sa capacité à personnaliser les bases pour les besoins d'une entreprise particulière. Les linguistes reconstituent et ajustent manuellement le contenu du BKF, affinant ainsi la technologie pour chaque client.



La technologie d'analyse linguistique basée sur le BKF permet de trouver les termes et phrases nécessaires, en tenant compte de la translittération, de la présence de fautes de frappe et de la morphologie: par exemple, avec un terme donné «location de transport», le système réagira à la fois au «bail de transport» et au «bail de transport», c'est-à-dire e. à toutes les combinaisons possibles d'inflexion de ce terme avec des erreurs d'impression. La recherche est effectuée sur la base de dictionnaires morphologiques (pour le russe, il s'agit du dictionnaire des AA Zaliznyak, pour les langues étrangères - dictionnaires créés séparément). Le détecteur de faute de frappe ne corrige pas les termes qui sont dans le dictionnaire morphologique, ce qui permet d'éviter de réagir aux mots dont la distance Domerau - Levenshtein (1) est égale à un.



InfoWatch possède une grande base de données de dictionnaires de l'industrie. Nous avons développé BKF pour une variété de domaines d'activité - de l'espace à l'énergie, nous avons également des bases à profil étroit (par exemple, dans l'Islam ou contenant le code source de C ++, Java, etc.), conçues à des fins spécifiques d'entreprises individuelles. Il convient également d'ajouter qu'en plus du russe, nous avons 95 BKF dans 33 langues étrangères, en tenant compte du support de la morphologie pour beaucoup d'entre elles.



Autolinguist: protection rapide des documents standards



En règle générale, le flux de travail d'une entreprise individuelle ne diffère pas par une forte variabilité; dans chacun des départements, des documents standard sont utilisés qui sont similaires dans le sujet et le contenu lexical.



Pour protéger et classer ces documents dans «l'arsenal» d'InfoWatch, il existe un autre outil d'analyse des données textuelles - «Autolinguist».



Comme son nom l'indique, la technologie vous permet de classer automatiquement des documents types dans des catégories prédéfinies sans recourir à une analyse manuelle.



L'analyse des documents dans le cadre de la création du BKF est généralement un travail long et énergivore (en moyenne, il faut à un linguiste 2-5 jours pour mettre en évidence les termes, créer des catégories et travailler plus avant avec l'élimination des faux positifs et faux négatifs), un autolinguiste peut considérablement accélérer le processus de mise en place de la catégorisation des textes.



Le classifieur utilise la bibliothèque d'apprentissage automatique Liblinear, en particulier l'algorithme de régression logistique (2) , qui permet d'obtenir la probabilité qu'un document texte appartienne à une certaine catégorie.



L'utilisateur a la possibilité de personnaliser le travail de l '«Autolinguiste» par lui-même: après avoir préalablement chargé la collection de documents de formation et formé le classificateur, l'utilisateur peut ensuite ajouter de nouvelles catégories, ainsi qu'ajuster le contenu de la base de documents.



Objets texte: quand l'expression régulière n'est pas un problème, mais une solution



Un autre outil puissant pour analyser et détecter les informations nécessaires est les objets texte - une technologie basée sur l'utilisation d'expressions régulières (qui, comme vous le savez, sont un outil extrêmement flexible et pratique qui vous permet de spécifier presque tous les critères de recherche) et est utilisé pour protéger les données avec un externe fixe présentant par exemple les numéros de carte de crédit, les coordonnées bancaires, les adresses e-mail, etc.



image



Un objet texte peut inclure un ou plusieurs modèles d'expressions régulières ou de chaînes (mots ou phrases; dans ce cas, la recherche sera effectuée pour une correspondance exacte avec la chaîne de mots, sans prendre en compte les particularités de l'orthographe et de la morphologie).



Pour vérifier le texte trouvé ou une combinaison de chiffres et de paramètres, en tenant compte des besoins du client, sans changer le code source de la technologie, les fonctions de vérification sont écrites dans le langage Lua.



Je vais donner un exemple de fonction de vérification pour détecter les codes bancaires internationaux dans le système SWIFT:



image



La fonction supprime le préfixe "SWIFT", vérifie et renvoie le reste du texte sans séparateurs.



En plus d'un ensemble d'objets texte préinstallés (russe, biélorusse, kazakh, vietnamien, malais, arabe, ainsi qu'un certain nombre d'objets internationaux couvrant les données de presque tous les domaines d'activité), les utilisateurs ont la possibilité de créer leurs propres objets texte uniques pour une entreprise particulière. Par exemple, il sera important pour une organisation de transport de contrôler les numéros VIN des voitures, et pour une structure militaire - le numéro d'identification d'un militaire.



image



Amis, grâce à cet article, vous avez découvert les principales subtilités de l'analyse linguistique dans le système InfoWatch Traffic Monitor: bases de filtrage de contenu et ses principes de base - termes et catégories; Technologie "Autolinguist", capable de classer indépendamment les textes typiques et les objets texte utilisés pour détecter les données de modèle.



Malgré l'efficacité prouvée des technologies et des développements que nous avons déjà, nous continuons à nous développer activement dans l'analyse sémantique, en reconstituant régulièrement les objets BKF et texte existants et en créant de nouveaux objets BKF et texte, ainsi qu'en élargissant le champ des technologies linguistiques. J'écrirai certainement sur toutes les innovations et les "puces" intéressantes à l'avenir.



Collègues linguistes, commentez, posez des questions difficiles, jetez des liens utiles et partagez votre expérience! Faisons ensemble un monde meilleur!



Auteur: Volobrinskaya Valeriavaleria_volob






1. , , , , .

2. , .



All Articles