“Utilizar dados e técnicas de Machine Learning para aumentar a produtividade das empresas, embasando suas decisões de negócio a partir dos resultados e recomendações dos modelos!”
Esta simples frase é o Santo Graal de boa parte das empresas querem implementar ou aprimorar uma cultura Data Driven . Porém, quero destacar este trecho com uma nova interpretação: “… decisões de negócio a partir de critérios dos modelos, levando em conta as estruturas de dados, de processos e tecnologia”.
A figura acima ilustra (de forma muito simples) um processo “ Data Driven”, o qual conta com dados e uma solução de Machine Learning para otimizar o processo e / ou diminuir custos e / ou aumentar a receita. Assim como acontece na vida real, o “ppt” sempre parece bem simples.
O objetivo deste artigo é levantar questões importantes para o trecho destacado no primeiro parágrafo do texto e apontar algumas soluções que tornem possível a antecipação de problemas que podem surgir ao longo da implantação.
É razoável supormos que, para atingir os objetivos da primeira frase do texto, o primeiro passo é armazenar dados correspondentes (ou auxiliares) aos negócios específicos. Porém, plugar soluções que de fato utilizam informações, muitas vezes em processos e ambientes apartados, é mais complexo.
Para que as empresas articularem esse processo, os desafios tecnológicos são mais importantes, pois apresentam questões de Data Science. Sendo assim, criar e testar novos ambientes que mudarão seus caminhos e produtos envolvem muitas outras etapas.
No caso de empresas que já possuem estruturas de armazenamento e uso de dados, também há desafios e oportunidades. Neste cenário, implantar e utilizar modelos pela primeira vez (ou substituir outros) apresentará situações novas. Eis alguns exemplos:
Administrar e otimizar ambientes para cada uma das etapas dos processos de uso de dados (armazenamento, experimentação e implantação) torna-se essencial para que o valor a partir deles seja de fato usado.
Estas três áreas citadas acima são partes fundamentais no processo de desenvolvimento e implantação das soluções de Machine Learning, principalmente nas etapas iniciais dos projetos. Nas interações abaixo, alguns exemplos de atividades, processos e decisões que podem ser realizados em conjunto:
Levar em conta, no desenvolvimento dos modelos estatísticos, a periodicidade e disponibilidade das informações quando estas são armazenadas nos bancos de dados é fundamental. Quando é feita uma extração histórica de uma amostra de dados para uma etapa de construção do modelo, é imprescindível considerar "como e quando" é feita a captura e armazenamento dos dados (tempo real, d + 1, d + 2, fechamento do mês , próximo dia útil, etc).
Com base nesta informação, os dados devem ser utilizados no modelo levando em conta os processos (dados disponíveis + modelo rodando + tomada de decisão do negócio) que devem funcionar na vida real. Vale frisar, também, que sempre devemos realizar um double-check com os times responsáveis de TI e checar ao longo do histórico se os dados são armazenados de fato nas periodicidades anteriores.
Uma das formas mais importantes (e difíceis) de turbinar os modelos é construir novas variáveis a partir da amostra original de dados . Suponha um exemplo simples, onde não se qualifica os dados transacionais de cartão de crédito para estimativa de renda, os dados da variável “valor de fatura” foram extraídos conforme abaixo:
Utilizar o valor da fatura parece intuitivo para explicar, por exemplo, renda, construindo uma série de novas variáveis a partir dos valores mês a mês: informações de tendência, média, mínimo, mínimo e muitos outros. Além de suavizar os efeitos outliers , podemos adicionar várias possibilidades para o conjunto de variáveis disponíveis. Uma vez que oferece mais possibilidades de explicação para o modelo a ser construído.
O ponto central é garantir que essas construções de variáveis sejam possíveis na implantação e uso do modelo. É muito comum (e natural) que as variáveis que foram construídas pelo time de Data Science “codificadas” (durante a construção dos modelos) em uma linguagem diferente no que diz respeito às utilizadas pelas equipes de implantação e uso dos modelos. Torna-se, portanto, fundamental a sinergia entre os times, principalmente no início dos projetos. Assim, todas as áreas envolvidas ficam cientes das necessidades, principalmente aquelas ligadas ao uso e implantação dos modelos.
Neste artigo, discutimos algumas questões relacionadas à implantação de soluções de Machine Learning. Dessa maneira, torna-se essencial uma sinergia entre as áreas, bem como mapear os riscos e necessidade antes de iniciar o desenvolvimento das soluções em si.
Quer saber mais sobre o assunto ou descobrir como a Datarisk pode te ajudar nessas questões? Acesse o nosso site e não deixe de conferir nossos outros.
Thanks to Everton Juliano da Silva