Nuances ML et DS de la gestion du risque de crédit





Bonjour.



Nous sommes l'équipe Advanced Analytics GlowByte et lançons une série d'articles sur la modélisation dans la gestion du risque de crédit. Le but du cycle est de parler brièvement du domaine, d'élargir le vocabulaire des termes professionnels et de fournir des liens vers des articles et des livres utiles. Dans l'article d'introduction, nous montrerons les caractéristiques de l'application du ML et du DS dans le domaine du risque de crédit, sans plonger profondément dans le sujet.



Ensuite, nous dévoilerons les enjeux de méthodologie de modélisation, travaillant avec les composantes du risque de crédit, ainsi que les approches de calibrage et de validation, qui prennent en compte les spécificités du fonctionnement des modèles dans une banque.



La base des publications est notre expérience de projet dans le développement et la mise en œuvre de modèles analytiques dans le secteur bancaire.



Et maintenant sous le chat.



Quels sont les risques?



En termes simples, le risque de crédit est le risque que les clients enfreignent les conditions de paiement des fonds en vertu de contrats de prêt.



Nous nous concentrerons sur trois défis qui se posent dans le cadre de la gestion du risque de crédit.



  1. Modélisation de la notation;
  2. Offre de crédit;
  3. Calcul du niveau des pertes attendues.


Pourquoi exactement sur eux?



  • Ces tâches sont toujours pertinentes pour les institutions financières;
  • Ils peuvent être transférés vers d'autres secteurs (télécoms, industrie, assurance);
  • Ils ont suffisamment d'espace pour les méthodes ML et DS.


Pour la classification générale des risques des institutions financières et le contexte, voir la revue [1] .



Tuyau de chacun (pipeline) ou schéma du processus de crédit



Schématiquement, le processus de crédit ressemble à ceci:





La partie de ce processus de la demande à l'émission est appelée le transporteur de crédit. Il y a des simplifications dans ce schéma. Par exemple, nous considérons le processus dans le cadre d'un produit de prêt, c'est-à-dire les enjeux marketing (optimisation du marketing, cannibalisation des produits, churn client, etc.) restent hors des crochets. Les processus de pré-cotation, d'ajustement des notes d'experts et d'application de facteurs d'arrêt par les souscripteurs sont exclus du pipeline. Les facteurs d'arrêt signifient des restrictions, dont la nature se situe d'abord dans la structure du produit que la banque propose au client. Un exemple est l'entrée d'un client dans la liste des faillis ou la présence de prêts en souffrance dans d'autres banques.



Modélisation de la notation 



La tâche de la modélisation de la notation (RM) est de créer un modèle de notation client pour un classement ultérieur. La notation est effectuée en relation avec divers événements négatifs - détérioration de la solvabilité, faillite, etc.



Selon le contexte, cette tâche peut être classée de différentes manières:



Par étape du cycle de vie du client:



  1. La notation applicative (applicative) est utilisée pour les nouveaux clients ou les clients avec une petite histoire (ou de longue date et non pertinente) au sein d'une société financière. Dans la construction d'un tel modèle de notation, le profil et le profil du client, les données sur son comportement de paiement dans d'autres institutions financières (disponibles dans le Bureau of Credit Histories) et les données sur la saisie de différentes listes, par exemple les listes négatives de la Banque centrale pour les personnes morales, sont importantes. La notation de la demande est utilisée pour décider d'accorder ou non un prêt à un demandeur.
  2. . — -. , .


:



  1. «» : ( ) , .
  2. «» : . , , , .


:



  1. «» . . .
  2. «» . ( ) . — Z-score [2].


:



  1. . .
  2. .


:



  1. Stand-alone — , . — . , .
  2. «Supply chain finance» — . , , , ( ) . , — , [3].


:



  1. : , , . — , ( , ).
  2. , .. . , .. .


Les particularités de résoudre ce problème en première approximation peuvent être trouvées dans [1] , [4] , [5] , [6]. Nous prévoyons de parler des fonctionnalités de conception dans le prochain article du cycle, consacré à la méthodologie de développement.



Parmi les tâches connexes, il convient de mentionner la tâche de l'offre de crédit (voir ci-dessous) et la tâche de sélection d'un seuil de coupure basé sur un score de notation - détermination du seuil d'approbation. Ce dernier problème n'est pas traité dans cet article, mais contient de l'espace pour les approches de pointe en ML. Par exemple, il y a des tentatives d'utilisation de RL [7]



Il convient également de mentionner brièvement les tendances actuelles pour améliorer la qualité des modèles de modélisation de notation développés:



  1. / (, - [8], . [9], )
  2. ( XGBoost );
  3. ( ) (text-mining);
  4. ( pipeline ---) , .. ModelOps [10].


La modélisation de la notation est de moins en moins rencontrée comme une tâche indépendante et de plus en plus en conjonction avec d'autres, faisant partie d'une application appliquée pour résoudre des problèmes plus généraux. L’offre de crédit est l’un d’eux. Nous y allons.



Offre de crédit ou comment faire une offre que vous ne pouvez pas refuser





Le résultat du modèle de notation (la valeur absolue de l'estimation de la probabilité de défaut - PD) peut être utilisé pour résoudre le problème de l'offre de crédit. Par offre de crédit, nous entendons tout d'abord la tâche de fixer une limite initiale pour un client.



Bien entendu, la valeur PD à elle seule - la prévision de la probabilité de défaut - ne suffit pas à déterminer la limite optimale. Vous devez comprendre la plage acceptable de valeurs limites qu'il est raisonnable d'offrir aux clients. Cela est nécessaire pour que le montant reflète au moins indirectement les besoins du client et sa capacité à rembourser sa dette.



Un point de référence dans ce cas peut être, par exemple, le chiffre d'affaires des fonds propres du client pour des produits autres que de crédit. 



Que devez-vous savoir d'autre? Pour mieux comprendre le problème, vous devez avoir une idée de la structure du coût du prêt. Il est schématiquement représenté dans le diagramme suivant (vu dans [11] ):





«Ressource» - la valeur de l'argent aux dépens de laquelle le prêt est effectué (par exemple, le taux des dépôts, qui attire l'argent des déposants et fournit la masse monétaire requise). La «marge» est le bénéfice attendu d'un prêt. «Risque» - déduction en cas de défaut de paiement. «Dépenses» - les coûts d'attraction et d'entretien.



Dans ce cadre, la modélisation de la notation peut être utilisée pour déterminer la taille et la structure du bloc de risque. La «ressource» est largement déterminée par le taux directeur de la Banque centrale. Les «coûts» et la «marge» sont des composants du produit, souvent indiqués dans le passeport du produit.



En d'autres termes, le «risque» n'est que l'un des éléments qui affectent la rentabilité finale d'un commerce.



Et les autres? Il semble qu'un problème d'optimisation se pose. Essayons de le formaliser. Il vaut la peine de souligner qu'il peut y avoir de nombreuses options, et il vaut surtout la peine de s'appuyer sur la tâche commerciale et le contexte du processus de développement.



Commençons par une option simple et montrons ensuite les points de développement potentiels de la solution. Le moyen le plus simple est d'optimiser la rentabilité d'un commerce.



Que le contrat de prêt soit émis pour le montant L (limite). Ce contrat a une probabilité prédite de PD par défaut. En première approximation, nous supposons que le client au moment du défaut a une dette égale à L.



Ensuite, le problème d'optimisation ressemblera à ceci:





On voit que PD est fixe et que la dépendance à L est linéaire. Il semblerait qu'il n'y ait rien à optimiser.



Cependant, dans la vie réelle, PD dépend de L pour les raisons suivantes: plus la limite est élevée, plus il est difficile de rembourser la dette et, par conséquent, plus la probabilité de défaut est élevée. Dans ce cas, notre tâche se transforme vraiment en une optimisation. Cependant, il y a aussi une nuance ici. Il y a des clients avec des revenus différents dans l'échantillon, donc les valeurs absolues ne seront pas suffisantes. Il est préférable de construire des dépendances non pas sur la limite, mais sur le niveau d'endettement, c'est-à-dire paramètreL():





Dépendance PD(L)peut être restauré à partir de données historiques ou de données pilotes. 



De plus, les arrêts de produit peuvent influencer la tâche d'optimisation. Par exemple, dans le passeport du produit, les limites acceptables du niveau de risque (probabilité de défaut) peuvent être indiquées. Ensuite, l'optimisation est effectuée uniquement jusqu'à la limite spécifiée.



Compliquant encore, qui est intéressé, puis sous le chat:
, (, ) (-, EAD — Exposure at default — ) . , , ( EAD, , LGD – Loss Given Default).





EAD . LGD , (, ..) ( LGD ). 0.9-1.



, PD L. :





, (, ), , :





«» — , «» — . Marketing Optimization.



— . , , , ..



. -.



Quoi d'autre à google? Mots clés limite basée sur le risque, approche basée sur le profit de la gestion des limites de crédit.



L'argent est donc offert et remis aux clients. Mais certains d'entre eux commencent à être en retard. Comment gérer la situation? Nous prenons un fer à souder. Nous collectons l'airbag sous la forme d'une réserve d'argent. Nous allons vous dire comment faire cela dès maintenant.



Réserves et rôle de DS pour leur calcul





La détermination de l'ampleur du risque est essentielle dans les activités de la banque: en fonction de l'appétit pour le risque, la banque détermine avec quels clients elle est prête à travailler. Mais dans tous les cas, pour minimiser les pertes éventuelles, une réserve de trésorerie est constituée sous forme d'espèces ou de titres liquides. Dans le pire des cas, la banque perd la totalité du portefeuille, mais c'est peu probable, il n'est donc pas très efficace d'avoir une réserve complète. Un certain équilibre est nécessaire.



Pour ce faire, vous devez déterminer avec précision le montant d'argent à réserver. C'est ainsi qu'apparaît la tâche d'assurer l'adéquation du capital (capital requis) pour les pertes attendues. (Perte attendue - EL). Les exigences en matière d'adéquation des fonds propres sont déterminées et contrôlées par le régulateur (Banque centrale).



Référence historique:
, . . .



, DS ML .



1974 , . 



Basel I 1988 . Basel I , 8% , (, – Risk-weighted Assets (RWA)).





, the Basel I Capital Accord RWA, . 

,  %
  0
50
  100
, 100 (-, ):





.. 4.



. : XGBoost , , .



Basel I Basel II. -, Basel II ( ) , , , . Xgboost ML DS.



Basel III . . . [6]. 



? , , RWA:



1. – . — 590-.

( [12]):
« , 590-, . , , ( ) . .»
.



, 5 , . , (, ), ( ) .



2. (, 483-) PD, LGD EAD.

:





, , , . , , , , data scientist’.



(Expected Loss – EL) (Unexpected Loss – UL).



Les pertes en roubles sont le produit de trois éléments:



  1. probabilité de défaut (PD - Probabilité de défaut)
  2. le montant de la dette du payeur au moment du défaut (EAD - Exposure At Default),
  3. part de ce montant, qui restera impayée (LGD - Loss Given Default).


En général, cette formule: 





nous reviendrons plus d'une fois dans une série d'articles - c'est un refrain du problème du provisionnement en risque de crédit.



Après ce type de décomposition de EL (ECL), il devient possible de simuler (DS et ML, bonjour!)) Chacune des valeurs mentionnées PD (modèle de classification binaire), LGD (modèle de régression), EAD (modèle de régression), où, dans les limites spécifiées par le contrôleur exigences à différentes étapes de la modélisation (développement, étalonnage et validation), il devient possible d'utiliser des méthodes statistiques et des algorithmes d'apprentissage automatique. 



Pour ceux qui aiment les choses plus compliquées:
EL UL (Value at Risk – VaR) – , ( 99%) .





PD, LGD, EAD , .



3. 9. . 

9 :



  • ( );
  • ( «Lifetime-» «Lt») PD, LGD, EAD, ; ECL — Expected Credit Losses;
  • ( ).


9 :





9 DS ML-.



?



  • 29.12.2012 N 192- « »
  • 6 2015 . № 483- « »
  • 15 2015 . N 3624- « »
  • 6 2015 . № 3752- « , »
  • [13].


Les règlements et les instructions étaient concernés, les livres ont été lus, mais où est DS? Comme promis - DS est dans les détails des composants. Mais c'est une histoire complètement différente. Nous analyserons plus en détail les caractéristiques de la modélisation des composants PD, LGD et EAD dans le prochain article du cycle, et à la fin de l'article d'introduction, nous présentons un tableau avec des options d'application des méthodes statistiques et des algorithmes d'apprentissage automatique au domaine de la modélisation des risques dans le cadre de chaque tâche.



Modélisation de la notation
Offre de crédit Calcul du niveau des

pertes attendues
Problèmes

résolus

avec

DS / ML
- Détermination de

l'algorithme de

notation;

- Détermination du seuil d'

approbation;

- Calibration.

- Développement d'un

optimiseur;

- Développement de modèles

utilisés pour

sélectionner une

proposition de prêt .

- Modélisation

des composants PD, LGD, EAD;

- Calibration.

conclusions



La principale conclusion après avoir écrit un article d'introduction pour nous (abv_gbc, alisaalisa, artysav, eienkotowaru) est la suivante: il est extrêmement difficile de décrire brièvement même trois problèmes qui se posent dans le calcul du risque de crédit. Pourquoi?



Une méthodologie détaillée a été développée pour ces tâches, ce qui fournit de bons éléments pour la réflexion sur le ML et le DS. Ces réflexions développent des approches pour répondre aux défis de plus en plus complexes du marché. Les instruments basés sur de telles approches, complémentaires, deviennent progressivement les principaux dans la prise de décision. Tout cela permet de transférer les bonnes pratiques et intuitions de la modélisation des risques vers d'autres secteurs (télécoms, assurances, industrie). Lesquels? Nous vous le dirons dans les prochains articles du cycle.



Liste des termes utilisés



  • Défaut - non-respect des obligations en vertu du contrat de prêt. Habituellement, le défaut est considéré comme un non-paiement en vertu du contrat dans les 90 jours.

  • PD - probabilité de défaut - probabilité de défaut.

  • EAD – exposure at default – . , , = + .

  • LGD – loss given default – EAD, .

  • EL – expected loss – .

  • EL – expected credit loss – .

  • – , .

  • - – .

  • SCF – supply chain finance – — - .

  • RWA – risk-weighted assets – , ; .

  • (IRB) – , , , .

  • 9 (IFRS9) – , , , .

  • VaR – , .





[1] Leo Martin, Suneel Sharma et Koilakuntla Maddulety. «L'apprentissage automatique dans la gestion des risques bancaires: une revue de la littérature». Risks 7.1 (2019): 29.

[2] en.wikipedia.org/wiki/Altman_Z-score

[3] www.youtube.com/watch?v=rfCamyEURyw&list=PLLQmSdmAWzkKeiOC1b-nxpoACqgfTc0G5&index=7.

[4] Breeden Joseph «Une enquête sur l'apprentissage automatique dans le risque de crédit». (2020).

[5] Sorokin Alexander. "Construire des cartes de score en utilisant un modèle de régression logistique." Journal en ligne de Science of Science 2 (21) (2014).

[6] Baesens Bart, Daniel Roesch, Harald Scheule. Analyse du risque de crédit: techniques de mesure, applications et exemples dans SAS. John Wiley & Sons, 2016.

[7] github.com/MykolaHerasymovych/Optimizing-Acceptance-Threshold-in-Credit-Scoring-using-Reinforcement-Learning

[8] riskconference.ru/wp-content/uploads/2019/10/%D0%A1%D1%83%D1 % 80% D0% B6% D0% BA% D0% BE_% D0% 92% D0% A2% D0% 91.pdf

[9] Masyutin Alexey. "Notation de crédit basée sur les données des réseaux sociaux." Informatique d'entreprise 3 (33) (2015).

[10] habr.com/ru/company/vtb/blog/508012

[11] vc.ru/finance/83771-kak-formiruetsya-procentnaya-stavka-po-kreditam

[12] Farrakhov Igor. «IFRS 9: Provisions pour l'estimation des pertes de crédit attendues». Revue bancaire. Application "MEILLEURE PRATIQUE 2 (2018).

[13] Bellini Tiziano. Modélisation et validation du risque de crédit IFRS 9 et CECL: un guide pratique avec des exemples utilisés en R et SAS. Presse académique, 2019.



All Articles