👂🏿 🚚 🎯 Tâches spécifiques de la science des données à la Banque 👩🏽‍⚖️ 🦂 🧔

Au cours des cinq dernières années, j'ai travaillé dans le bureau d'apprentissage automatique (ML) d'une grande banque et j'ai constaté de nombreux goulots d'étranglement dans le développement et la validation de modèles.

Dans cet article, j'ai d'abord eu l'intention de considérer les principaux systèmes d'information de certains abstraits de la Bank X, car c'est sur la base de systèmes d'information déjà établis que se construit le travail des analystes de données, et que les algorithmes de ML pour la prise de décision sont formés et fonctionnent. . Mais quand j'ai commencé à écrire, j'ai soudain découvert qu'en fait, il est beaucoup plus intéressant de discuter d'un certain nombre de sujets et de sous-tâches qui se posent lors de la construction et de la validation des modèles les plus élémentaires de la Banque, c'est-à-dire des modèles de risque de crédit.

La gestion du risque et le calcul du risque de crédit peuvent être considérés comme les ancêtres de la science des données à la Banque, la gestion du risque de crédit étant une prérogative bancaire primordiale. C'est une gestion habile des risques qui permet aux banques d'offrir quelque chose de valeur au marché du crédit et des relations financières. L'idée que la banque empoche simplement la marge d'intérêt entre les intérêts sur le prêt et les intérêts sur le dépôt est fondamentalement fausse, même si j'entends parfois cela de la part de personnes qui ne connaissent pas les rouages de l'activité bancaire.

D'une part, la banque assume tous les risques de non-remboursement du prêt, et d'autre part, donne des garanties au déposant sur le retour des fonds investis. Une alternative à un dépôt bancaire est de prêter votre argent directement à l'emprunteur sans aucune garantie de retour. La banque, quant à elle, est en mesure de donner des garanties, car d'une part elle dispose d'un «coussin de sécurité» sous forme de capital fixe et inclut dans un premier temps les pertes liées au non-remboursement des prêts dans ses indicateurs financiers («forme des réserves») . En revanche, la Banque sait calculer la probabilité que l'emprunteur ne rembourse pas le prêt qui lui a été accordé. Bien sûr, personne ne peut prédire exactement si un particulier ou une entreprise remboursera la dette, mais en moyenne, la probabilité peut être estimée pour un grand nombre d'emprunteurs.

La Banque ne sera financièrement stable que si le profit qu'elle réalise sur la marge d'intérêt couvrira les pertes liées aux défauts de paiement et autres dépenses connexes de la Banque.

Pratique bancaire bien établie

Avant de passer directement à la discussion des modèles prédictifs et des tâches de science des données, attardons-nous une minute sur les spécificités du fonctionnement d'une banque avec un client. Une banque, et en particulier une grande banque, est un système bien organisé dans lequel chaque étape est littéralement prescrite. Cela s'applique également à l'interaction avec les emprunteurs.

En particulier, en ce qui concerne les emprunteurs, un concept de «défaut» est souvent utilisé. Le statut par défaut est un statut attribué à un client lorsqu'il est presque totalement convaincu que le client ne rendra pas l'argent à la banque, du moins en totalité. Les règles et procédures d'attribution d'un statut par défaut aux clients sont négociées au niveau d'un groupe de travail spécialement créé. Et puis les règles ci-dessus sont prescrites dans la documentation réglementaire interne.

Si un client se voit attribuer un statut par défaut, on dit généralement que "le client a fait défaut". Du point de vue des processus de la Banque, cela signifie que certaines procédures d'interaction avec le client seront lancées. Peut-être que le problème de la faillite de l'emprunteur sera résolu, la Banque tentera de vendre la propriété gagée, de collecter des fonds auprès des garants ou de vendre la dette du débiteur à des agents de recouvrement, etc.

Il s'est juste produit historiquement que les pertes attendues du non-remboursement des prêts sont généralement divisées en trois composantes:

EL = PD * EAD * LGD

où EL - perte attendue, pertes attendues;

PD - probabilité de défaut, la probabilité que l'emprunteur se voit attribuer un statut par défaut au cours de l'année suivante, à compter de la date d'évaluation;

EAD - exposition en cas de défaut, tous les fonds que le client doit restituer à la Banque à la date de «mise en défaut», y compris à la fois le montant émis et les intérêts, amendes et commissions;

LGD - perte en cas de défaut, la part de la dette totale de l'emprunteur envers la banque, que la Banque ne remboursera plus à elle-même. Autrement dit, il s'agit d'une perte nette pour la Banque;

Si je m'éloigne quelque part des définitions et des concepts éducatifs, alors je m'excuse à l'avance, car mon objectif principal n'est pas de rédiger un récit correct des manuels, mais de saisir l'essence des problèmes existants. Pour cela, il faut parfois raisonner "sur les doigts".

Essayons maintenant de formuler une tâche typique pour un data scientist. La première chose à prévoir est la probabilité de défaut de PD. Tout semble simple ici. Nous avons un problème de classification binaire. Donnez-nous les données avec la véritable étiquette de classe et tous les facteurs et nous allons rapidement mettre en place un script avec double validation croisée et sélection de tous les hyperparamètres, choisissez le modèle avec la meilleure métrique de Gini et tout ira bien. Mais pour une raison quelconque, en réalité, cela ne fonctionne pas.

Il n'y a pas de véritable étiquette de classe

En fait, nous ne connaissons pas la véritable étiquette de classe (cible). En théorie, la cible est une variable binaire égale à zéro si l'emprunteur est «sain», et égale à un si l'emprunteur s'est vu attribuer le statut «par défaut». Mais le problème est que les règles par lesquelles le défaut est déterminé sont inventées par nous. Une fois les règles modifiées, le modèle ne fonctionne plus même sur les données historiques d'entraînement.

Nous ne connaissons pas bien notre client

Avec l'accumulation de l'historique des prêts émis, il existe une volonté de construire des modèles plus complexes, ce qui nécessite des informations supplémentaires sur les clients. C'est alors qu'il s'avère qu'avant nous n'avions pas besoin de ces informations et, par conséquent, personne ne les collectait. En conséquence, il existe de nombreuses lacunes dans les échantillons collectés, ce qui nie l'idée même de construire un «modèle plus informé». Et, ne serait-ce que ça.

La présence d'un grand nombre de clients est tentante de les décomposer en segments, à l'intérieur desquels construire des modèles «plus étroits» et en même temps plus précis. Mais la division en segments est également effectuée selon une règle, et cette règle est basée sur toutes les mêmes données client. Et qu'avons-nous? Et nous avons des lacunes dans les données et, par conséquent, nous ne pouvons même pas toujours comprendre à quel segment un client particulier doit être attribué.

Le régulateur exige de rendre les modèles interprétables

Par «régulateur», j'entends la Banque centrale, qui exige que les modèles soient compréhensibles. Il devrait être clair non seulement la prévision elle-même, mais aussi les règles selon lesquelles cette prévision a été faite. Pour être juste, je dirai que dans une plus large mesure, cette règle ne s'applique qu'aux modèles dits «réglementaires». Afin d'assurer la stabilité du système bancaire dans son ensemble, le régulateur surveille en permanence les activités des banques en fonction d'un certain nombre d'indicateurs clés, parmi lesquels, par exemple, le calcul de l'adéquation des fonds propres pour couvrir les pertes imprévues lors d'éventuelles crises financières.

Que signifie l'exigence d'interprétabilité? Cela signifie que dans la plupart des cas, vous devrez vous contenter de modèles sous forme de régression logistique ou d'arbre de décision. Vous devrez oublier les réseaux de neurones, les ensembles, les empilements et autres architectes «modernes».

Fondement procrustéen de la pratique bancaire établie

La norme de facto de l'industrie exige que la perte attendue soit estimée comme le produit de trois valeurs: PD, EAD et LGD. Cela n'est vrai que lorsque les événements se développent selon le même scénario. Le client retourne le prêt ou non. Dans le premier cas, on considère qu'il n'y a pas de pertes. Dans le second cas, on suppose qu'il existe un certain montant à risque (EAD).

En pratique, le comportement de paiement des clients ne se limite pas à deux options simples, et la frontière entre ces options est plutôt arbitraire. L'emprunteur peut être en défaut dans un mois, un an ou deux, puis, après avoir reçu le statut «par défaut», revenir soudainement aux paiements et rembourser la totalité du prêt. De plus, les écarts par rapport au calendrier de paiement peuvent être à la fois en termes de montants et de conditions, en avance sur le calendrier ou vice versa. Le résultat financier de la Banque sera dans tous les cas différent.

Je ne dis pas qu'il est impossible de réduire en principe toute la variété des comportements des emprunteurs au schéma de calcul à trois composantes. Bien sûr, tout dépend de la tâche. Où voulons-nous appliquer ce modèle plus tard? Si, pour évaluer le risque de crédit par pools (groupes) d'emprunteurs, tous les écarts possibles sont pris en compte par différents calibrages et le calcul des valeurs moyennes pondérées. Mais, si notre objectif est de personnaliser l'approche de l'octroi d'un prêt, y compris la sélection personnelle des propositions, il devient important de prévoir le flux des paiements du client ou de prévoir la valeur actuelle nette.

Là où les alternatives avancées basées sur les données trébuchent

Il faut comprendre que toute la pratique bancaire de l'industrie a été formée à l'époque où il n'y avait pas de Big Data ou d'apprentissage automatique, et tous les calculs ont été réduits à la construction de cartes de pointage. Ils ont pris tous les facteurs importants affectant la solvabilité de l'emprunteur et les ont évalués sous forme de points, puis ces points ont été résumés et, en fonction de la somme des points, il a été déterminé s'il fallait ou non émettre un prêt.

Avec l'accumulation de l'historique des prêts accordés et le développement de la technologie informatique, les procédures de prise de décision à la Banque se sont progressivement compliquées. Les cartes Scorch se sont transformées en modèles de régression logistique construits avec des scripts python. La Banque a commencé à segmenter ses clients et ses produits afin de construire ses propres modèles à l'esprit étroit dans chaque segment. D'autre part, avec la croissance des volumes de stockage de données, il est devenu possible de collecter et de stocker de plus en plus d'informations ensemble sous une forme interconnectée.

Au final, tout évolue vers l'idée quand pour chaque client qui vient, la meilleure offre (produit bancaire optimal) sera trouvée presque instantanément, ce qui maximiserait le CLTV (valeur à vie du client) sur un horizon temporel donné, ou une autre métrique, selon l'état actuel de la Banque et les objectifs de ses parties prenantes.

Pourquoi ne pas utiliser un puissant réseau de neurones (c'est-à-dire la fameuse «intelligence artificielle») pour résoudre le problème ci-dessus? Je vais énumérer quelques circonstances qui interfèrent avec cela:

- La banque centrale exige que les modèles impliqués dans le calcul de l'adéquation des fonds propres soient appliqués dans un processus de crédit «en direct». Autrement dit, ce sont ces modèles qui doivent être appliqués dans la prise de décisions sur l'octroi de prêts, être interprétables et passer un certain nombre de tests de validation obligatoires;

- les bases de données clients sont en constante expansion et complétées. Par exemple, les types de données relativement nouveaux sont la biométrie, l'analyse Web, l'analyse des applications mobiles et la notation des médias sociaux. L'ajout de nouveaux attributs se produit au fil du temps et, par conséquent, nous n'avons pratiquement aucune donnée historique à leur sujet;

- les produits et processus de la Banque sont en constante évolution et le recalcul CLTV pour les clients et le calcul de la VAN (valeur actuelle nette) pour les nouveaux produits est nécessaire. Et pour construire un modèle de qualité acceptable, il faut attendre plusieurs années, accumuler des données historiques et calculer les valeurs réelles de CLTV ou de VAN sur un échantillon d'emprunteurs réels;

Résultat:

Avec tout le désir, la construction de modèles de prévision à la Banque ne peut être considérée comme un problème purement mathématique. Dans la pratique, les problèmes commerciaux sont résolus, qui, entre autres, sont étroitement liés aux exigences du régulateur en la personne de la Banque centrale.

Parfois, il semble que les entreprises dotées d'une solide science des données puissent s'infiltrer dans le secteur bancaire et changer les règles du jeu. Mais pour émettre des prêts, il faut jouer selon les règles déjà existantes, et donc cela devient une banque avec toutes les conséquences qui en découlent. Le cercle est terminé.

L'émergence d'une nouvelle start-up fintech cool dans le domaine des prêts semble davantage concerner la recherche de failles dans le domaine juridique que l'innovation dans l'apprentissage automatique.

Tâches spécifiques de la science des données à la Banque