Modelagem de Risco de Crédito e Inferência de Rejeitados

‍Modelagem de risco de crédito é um processo que tem como objetivo estimar a probabilidade de uma pessoa pagar ou não um empréstimo. Apesar do nome remeter a transações bancárias, modelos de risco de crédito estão presentes em diversas indústrias como no varejo, na contratação de seguros e nos fundos governamentais ou privados.
‍

É seguro dizer que, desde o surgimento da moeda e do sistema bancário, esse processo de estimar o risco de uma operação de empréstimo é executado; inicialmente de maneira subjetiva, levando em consideração variáveis como a reputação e o capital dos clientes, o prazo de pagamento e as garantias do empréstimo.
‍

Para ilustrar, trago um exemplo simples de como essa análise era feita. Imagine que dois amigos, José e Paulo, pedem a você um empréstimo de livros de uma coleção. José mora no seu prédio e vocês se encontram todos os finais de semana, ele também é conhecido por ser pontual e organizado. Já Paulo é um colega de trabalho e está pronto para sair de férias. Assim, pretende levar seu livro para a viagem. Além disso, ele ainda não pagou o almoço que está devendo de uma aposta que vocês fizeram.
‍

Comparando os pedidos acima, é possível estimar o risco dos dois empréstimos. E é intuitivo afirmar que é mais seguro emprestar para José do que para Paulo. Isso pode funcionar bem para uma situação simples como esta que envolve apenas duas opções, mas para escalas maiores é necessário uma abordagem mais científica.
‍

No início do século 20, foram criadas as primeiras agências de classificação de risco, que publicavam relatórios contendo estatísticas básicas e informações gerais sobre ações, capital e títulos de diversas empresas, atribuindo uma nota de confiabilidade. Os primeiros modelos matemáticos datam do final dos anos 60, sendo combinações lineares de índices de negócios. Desde então, eles têm evoluído constantemente.
‍

Os métodos mais modernos são as aplicações de machine learning, mas por maior que seja essa evolução, ainda utilizamos um parâmetros de análise como os do exemplo sobre o empréstimo de livro. É isso que chamamos de viés da população de aprovados.
‍

O que é viés da população de aprovados?
‍

Vamos começar com a definição de viés. Este é um conceito que significa distorção sistemática entre a medida de uma variável estatística e o valor real da grandeza a estimar.
‍

Quando nos referimos ao viés da população de aprovados, estamos dizendo que somente as características de quem já foi aprovado, em algum momento, para receber um empréstimo estão sendo contempladas no desenvolvimento do modelo de aprovação de novos empréstimos.
‍

Isso acontece pois mesmo as técnicas mais modernas utilizam dados históricos das características de quem pegou empréstimo e a performance neste empréstimo (se foi um bom ou mau pagador) para modelar o problema.
‍

Pensando no exemplo anterior, imagine que você acabou conhecendo o Rafael, um novo morador do seu prédio. Ele se interessa por literatura e gostaria de pegar seu livro emprestado. Como você iria decidir se empresta o livro sem conhecer as características dele? Provavelmente, utilizaria sua experiência com o empréstimo anterior para tomar essa decisão.
‍

Abaixo, vemos um fluxo muito simplificado de um processo de concessão de crédito, onde fica mais fácil entender o motivo de apenas os aprovados serem utilizados no desenvolvimento dos modelos.
‍

Inferência de rejeitados
‍

Para buscar resolver esse problema, as técnicas de inferência foram criadas. Estas técnicas têm como objetivo estimar a performance do conjunto de rejeitados para que o público possa ser utilizado no desenvolvimento de novos modelos e assim reduzir o viés de modelos anteriores e da população de aprovados.
‍

Simple augmentation
‍

É uma das técnicas mais simples de inferência de rejeitados, utilizando o modelo de risco de crédito treinado com os aprovados para calcular a probabilidade de inadimplência do público dos rejeitados. O processo é usualmente chamado de escoragem de crédito e quanto maior o valor do score, melhor é o cliente, e menor a probabilidade de inadimplência prevista.
‍

Com o resultado da escoragem, é preciso escolher um ponto de corte para separar aqueles que serão considerados bons e ruins: aqueles que tiverem uma probabilidade de inadimplência menor do que o ponto de corte serão considerados bons pagadores e aqueles que tiverem uma probabilidade maior do que o ponto de corte serão considerados maus pagadores.
‍

Parcelling augmentation
‍

O procedimento nesta técnica é similar ao anterior e também depende da pré-existência de um modelo de risco de crédito construído com base na população de aprovados. O objetivo dessa técnica é separar os clientes rejeitados em grupos, atribuindo a inadimplência a eles baseado na proporção de inadimplência esperada em cada um desses grupos.
‍

A separação é dada por faixas de score do modelo construído apenas com aprovados, e a definição da taxa de inadimplência esperada para cada faixa é obtida observando o público aprovado. A ideia aqui é encontrar semelhanças entre a amostra de rejeitados e de aprovados, então clientes dentro da mesma faixa de score terão a mesma chance de inadimplência.
‍

Segue o passo a passo da técnica:
‍

· Escorar o público reprovado, utilizando o modelo construído com base no público aprovado;

· Ordenar e dividir o público reprovado por faixas de score, realizar o mesmo procedimento em uma amostra do público aprovado;

· Calcular a proporção de maus pagadores para cada faixa de score para a amostra do público aprovado e então dividir o público rejeitado aleatoriamente seguindo a proporção obtida para cada uma das faixas de score.
‍

Uma prática comum na adoção desta técnica é a adoção de proporções de mau ligeiramente mais altas nos rejeitados do que a observada no público aprovado. O conhecimento de negócio é muito importante para a escolha ou não desta abordagem mais conservadora.
‍

Fuzzy augmentation
‍

O nome da técnica veio da lógica fuzzy, que é uma variação da lógica booleana onde, em vez dos valores de verdadeiro e falso serem representados como 1 e 0, respectivamente, são representados por um número real dentro do intervalo de 0 e 1. A lógica fuzzy foi criada para lidar com o conceito de verdade parcial, em que o valor verdade se situa entre o completamente verdadeiro e o completamente falso.
‍

Para introduzir os conceitos da lógica fuzzy no modelo, são atribuídos pesos para cada observação. Desta forma, para os casos em que sabemos o comportamento do cliente atribuímos peso 1 (verdade absoluta) para cada observação. Já nos casos em que estamos inferindo o comportamento do cliente, atribuímos os pesos baseados na probabilidade de inadimplência esperada de cada um, que é obtida por meio do score do modelo construído apenas com aprovados.
‍

Vamos ao passo a passo da técnica:
‍

Com um modelo treinado na amostra de aprovados, escorar nos rejeitados;
Para cada linha de um rejeitado, duplique ela com as seguintes propriedades:
‍

Em uma linha, uma nova coluna que daremos o nome de “peso” será a probabilidade retornada pelo modelo e marcaremos esta linha como mau pagador;
Na outra linha, o peso será o complementar da probabilidade retornada pelo modelo e marcaremos esta linha como bom pagador;
‍

Para o público aprovado não duplicaremos as linhas. A coluna “peso” será preenchida com o valor 1 e os clientes continuarão com a marcação de bom ou mau original.
‍

Com esta nova amostra será possível treinar um novo modelo de risco de crédito utilizando o público reprovado. Abaixo um exemplo da aplicação da técnica:
‍

Os três métodos acima compartilham duas características muito importantes, uma positiva e outra negativa:
‍

Pró: não exigem custo adicional;
Contra: já há dependência de um modelo de risco de crédito. A qualidade do processo de inferência de rejeitados é diretamente proporcional à capacidade do modelo original em separar o público aprovado em bons e maus pagadores.
‍

Tendo em vista os pontos acima, há ainda duas outras possibilidades: (1) utilização de informação externa e (2) inferência contrafactual.
‍

Utilização de informação externa
‍

Este método utiliza a informação de birôs de crédito para estimar o comportamento dos clientes rejeitados. Birô de crédito é uma empresa que atua disponibilizando informações sobre o comportamento de crédito de consumidores no mercado de modo geral, analisando diversos segmentos, como o varejo, a telefonia, as seguradoras, os bancos, entre outras fontes.
‍

A ideia aqui é comparar a situação dos consumidores rejeitados em dois momentos. O primeiro é quando o cliente pediu o empréstimo e o segundo é no desenvolvimento de um novo modelo. A escolha do intervalo de tempo entre essas consultas deve levar em conta a definição de inadimplência do seu estudo. Se considerarmos a inadimplência a partir do atraso de 60 dias do pagamento nos últimos 12 meses, o intervalo de tempo para se realizar a consulta no birô será de 12 meses.
‍

A imagem abaixo ilustra as possibilidades na consulta ao birô de crédito:
‍

As grandes vantagens deste método são a independência de um modelo de risco de crédito anterior e o uso de informações concretas para realizar a inferência. Porém, deve-se levar em conta os seguintes pontos de atenção:
‍

É improvável que todos os clientes rejeitados estejam no birô de crédito, diminuindo a amostra que pode ser utilizada para o desenvolvimento do novo modelo;
A consulta a birôs de crédito exige um custo financeiro;
O método de classificação de clientes em bons e maus nos birôs de crédito pode ser considerado uma “caixa-preta”, e por ser um índice bastante generalista, pode não contemplar o seu business case da melhor maneira.
‍

Inferência contrafactual
‍

Sem dúvidas, o método mais ousado e próximo da performance real é a inferência contrafactual. Esta técnica consiste em randomicamente aceitar alguns pedidos de empréstimos de clientes que seriam rejeitados, e então acompanhar o desempenho da amostra. Com isso, em conjunto com a amostra dos aprovados, conseguimos construir novos modelos de risco de crédito.
‍

Existem dois fatores que são primordiais para a viabilidade desta abordagem:
‍

Apetite de risco e aceitação de perdas por parte da instituição;
Conceder o empréstimo a uma pessoa, sabendo previamente que ela provavelmente não conseguirá pagar. Deve-se levar em conta que esta prática pode ser considerada antiética pelo fato da pessoa adquirir uma dívida.
‍

Conclusão
‍

O problema de viés de aprovados é conhecido há tempos e vem sendo alvo de diversos estudos, porém ainda hoje debate-se muito a real eficiência dos métodos disponíveis para inferência de rejeitados; especialmente as técnicas que são dependentes de um modelo anterior.
‍

Entre os três tipos de augmentation, recomenda-se a utilização do fuzzy, pois a adição dos conceitos de incerteza, próprios da lógica fuzzy, ajudam a aproximar melhor o fenômeno que queremos estimar.
‍

Neste post, apontamos algumas das técnicas mais utilizadas e trazemos algumas considerações de prós e contras para que você possa escolher a que melhor se encaixa no seu modelo de negócio e apetite de risco. Quem sabe na próxima vez que estiver desenvolvendo um modelo de risco de crédito, consiga enriquecê-lo com características do público reprovado.

‍

Referências

Should we “reject” Reject Inference? An Empirical Study

Reject Inference & Scorecards — Banking Case (Part 5)

Credit Risk Modeling with Machine Learning

Credit Scoring: Part 6 — Segmentation and Reject Inference

History of Credit Risk Models

Alves, Mauro Correia. Estratégias para o desenvolvimento de modelos de credit score com inferência de rejeitados. Dissertação de Mestrado da Universidade de São Paulo (USP), 2008.

‍

Daniel Tonetti

Cientista de dados

Modelagem de Risco de Crédito e Inferência de Rejeitados