Introdução
Costumam dizer que 20% do trabalho de ciência de dados é usado para criar o modelo e 80% do trabalho está na preparação dos dados, mas eu penso um pouco diferente. Concordo que a preparação dos dados é um passo importante do processo, mas diria que consome apenas 40% do tempo. Os outros 60% usamos para criar o modelo e para decidir como utilizá-lo, colocá-lo em produção e definir políticas para trazer os resultados do modelo para o dia a dia da empresa de forma a melhorar o processo de decisão interno.
Neste post, eu vou exemplificar como podemos utilizar um modelo de crédito para ajudar nas decisões de uma empresa. Para fazer um modelo mais rápido e garantir um bom resultado eu irei utilizar a plataforma de Auto ML da Datarisk, o Datapred. Para criar um modelo no Datapred é super simples, basta fazer o upload da base de dados, selecionar a variável que estamos tentando prever e em poucos cliques o modelo já estará pronto. Abaixo coloco um print de algumas variáveis após fazer o upload da base na plataforma.

É importante lembrar que a base de dados utilizada como referência para este post não é real. A ideia aqui não é focar no modelo em si e sim em sua aplicação no dia a dia.
Modelo criado
O modelo criado para esse exemplo foi uma regressão logística. Como disse acima, eu utilizei o Datapred para criá-lo com uma base fictícia de crédito. Abaixo, apresento os resultados:

Apesar de ser um modelo rápido e utilizar apenas 9 variáveis, o resultado do modelo de crédito ficou muito bom. Conseguimos chegar em um AUC de 0,839.
O AUC é uma métrica utilizada para avaliar quão bem um modelo consegue prever a variável resposta do estudo, que no nosso caso é se um cliente será inadimplente ou não. Lembrando que quanto mais perto de 1, melhor é o modelo.
Modelo em produção
Legal, então temos um modelo pronto, mas e agora? Não adianta criarmos um modelo se ninguém puder utilizá-lo. Cada modelo e cada problema precisam de técnicas diferentes para atender as expectativas de quem realmente irá consumir essa informação, mas na maioria dos casos temos duas opções: criar uma API que pode ser chamada sempre que precisarmos escorar um novo cliente ou criar um processo de escoragem em batch onde subimos uma lista de clientes e esse processo nos devolve toda essa lista escorada.
Para um modelo de crédito, sempre que um cliente entrar em contato conosco pedindo um empréstimo, o ideal é que possamos calcular em tempo real qual o risco de emprestar dinheiro para ele . Por isso nesses casos costumamos criar API’s.
API é um software que se comunica com outros softwares, normalmente para fazer processamentos mais complexos e/ou compartilhar informações.
No exemplo do modelo acima, a nossa API receberia uma lista de informações sobre o cliente. Por exemplo:

Ao serem recebidas pela nossa API, essas informações passariam por dentro do nosso modelo, que no nosso caso é a regressão logística, e como resultado final teríamos o score para esse cliente. É justamente esse score que devolveremos para quem chamar nossa API. Abaixo, coloco um exemplo de resposta:

No nosso caso, como utilizamos o Datapred, não precisamos nos preocupar em criar API’s ou processos de escoragem em batch, a ferramenta já disponibiliza tudo isso pronto para nós.
Políticas de crédito
Maravilha! Construímos um modelo de crédito e o disponibilizamos por meio de uma API para podermos receber dados e devolver os scores. No exemplo acima, o score do possível cliente é 718, mas o que fazemos com esse número? Criamos políticas de crédito!
Políticas de crédito são regras que nos ajudam a organizar a nossa prospecção de clientes de acordo com o risco de inadimplência que eles apresentam para nossa empresa. Essas regras nos ajudam a decidir, por exemplo, qual o valor máximo que deve ser disponibilizado para um cliente e qual taxa de juros deve ser cobrada dele para garantir que teremos o retorno esperado.
No mundo de crédito, a forma mais comum de estruturar as políticas pelo resultado do modelo é criando clusters para agrupar os clientes de acordo com o risco dele tornar-se inadimplente. Existem diversas técnicas para chegar nesses clusters, mas a mais comum delas é separar a sua amostra em 10 grupos iguais, sendo que cada um desses grupos terá 10% da população do estudo. Usando essa técnica em nossa base, temos o seguinte resultado:

No gráfico acima vemos a porcentagem de inadimplência observada para cada um dos 10 grupos que criamos. Podemos perceber claramente que quanto maior o cluster, maior a inadimplência observada, o que também representa um maior risco para a empresa. Vamos supor que para esse exemplo o corte no score que fazemos para cada grupo ocorre de 100 em 100. Então o cluster 1 teria os clientes com score de 900 a 1000; o cluster 2, os clientes com score de 800 a 900; o cluster 3, 700 a 800 e assim por diante.
No nosso exemplo acima, o cliente teve um score de 718, o que o colocaria no cluster 3. Historicamente, os clientes que caem nesse cluster costumam apresentar uma inadimplência menor que 2%. Com isso, podemos calcular com mais precisão a nossa taxa de juros para fazer uma oferta melhor para esse cliente, de forma a atender as expectativas dele e também investir o dinheiro da empresa com segurança.
Monitoramento
Finalmente chegamos ao ponto da utilização do modelo por meio da criação de políticas, mas isso é tudo que precisamos fazer? Não! É fundamental que o time responsável pela criação dos modelos monitore o desempenho ao longo do tempo. Com o passar do tempo, o público da empresa pode mudar ligeiramente, e com isso o comportamento esperado pelo modelo também está sujeito a mudanças. É importante que as métricas de avaliação do modelo sejam revisadas ao longo do tempo, para que seja possível identificar o momento ideal para atualizar o modelo, garantindo o melhor funcionamento possível.
Outro ponto importante a ser monitorado são as variáveis que entram no modelo. É importante garantir que os dados que estão passando pelo modelo têm uma distribuição semelhante à apresentada no momento do treino dele. Se os dados mudarem, é importante mudar também o nosso modelo. Lembrando que toda vez que atualizar um modelo, é importante aplicar as mudanças na API e calibrar novamente as políticas de crédito.
Conclusão
Um único modelo já é suficiente para dar muito trabalho, principalmente para times menos experientes. Por essa razão, é importante ter ferramentas na sua empresa que acelerem as etapas técnicas da criação do modelo e da disponibilização da API, como o Datapred. Dessa forma, a sua preocupação fica apenas em criar as políticas que melhor atendam o seu negócio.

Cientista de dados