IT Forum 365
fraudes e machine learning

Machine learning, a maneira inteligente de combater fraudes

O aprendizado de máquina tem alta capacidade para identificar e analisar desvios financeiros utilizando ciência de dados

Um estudo da consultoria americana Kroll, especializada em prevenção de riscos corporativos e investigação de fraudes, sobre impactos de fraudes nos negócios, revela que a maior ameaça às empresas vem, em grande parte, dos próprios funcionários, especialmente de pessoas que têm acesso privilegiado a informações e dados corporativos.

Segundo a Kroll, das companhias que disseram ter sido vítimas de fraude no ano passado, 81% admitiram que a ação fraudulenta envolveu pelo menos uma pessoa de dentro da organização.

A maioria das empresas ainda usa sistemas baseados em regras como sua principal ferramenta para detectar ações fraudulentas. “As regras fazem um excelente trabalho contra padrões conhecidos, mas elas sozinhas não são muito eficazes para desvendar esquemas desconhecidos, novos padrões de fraude ou técnicas cada vez mais sofisticadas de fraudadores”, alerta Mike Ames, diretor sênior de Data Science e Tecnologias Emergentes do SAS.

Com um alto volume de variáveis e dados, a identificação de fraudes e fraudadores a partir de metodologias tradicionais acaba quase que inviabilizada. Por isso muitas organizações buscam técnicas de aprendizado de máquina (ou machine learning) para tornar mais seguros seus processos internos e eliminar os riscos de fraudes.

Capazes de identificar e analisar evidências digitais de comportamentos suspeitos, maquiagem de resultados, desvios financeiros e até mesmo rastrear atividades ilegais, tanto em computadores e sistemas quanto em dispositivos móveis, os sistemas de aprendizado de máquina, como o próprio nome diz, permitem aprender, adaptar e descobrir padrões emergentes de fraudes.

Por dentro do aprendizado de máquina

De maneira simples, o aprendizado de máquina automatiza a extração de padrões conhecidos e desconhecidos de dados. Ele expressa esses padrões como uma fórmula ou um conjunto de instruções que pode ser aplicado a dados novos. A máquina aprende e se adapta à medida que os resultados e novos padrões são apresentados — e eles podem ser supervisionados ou não supervisionados.

O aprendizado de máquina supervisionado é uma classe de métodos analíticos que tentam aprender a partir de registros identificados em dados; isso geralmente é chamado de dados rotulados. Para treinar um modelo supervisionado é preciso apresentar registros fraudulentos e não fraudulentos, e o modelo tenta inferir uma função ou conjunto de instruções. Os métodos mais comuns incluem regressão logística, redes neurais, árvores de decisão, aumento de gradiente, máquinas de vetores de suporte, entre outros.

O aprendizado de máquina não supervisionado é diferente. Como não se sabe quais dados são fraudulentos, pede-se que o modelo crie a estrutura dos dados. Para treinar um modelo não supervisionado, basta apresentar os dados e o modelo tenta inferir uma função ou instrução para definir a estrutura e as dimensões subjacentes desses dados. Essa função ou instrução pode ser aplicada a dados novos e inobservados.

O desafio com métodos não supervisionados é a dificuldade em avaliar a precisão do esquema de detecção. Os métodos comuns de aprendizado de máquina sem supervisão incluem mapas de auto-organização, k-means, dbscan, estimativas de densidade do kernel, máquinas de vetores de suporte, análise de componentes principais e outros.

Explosão de dados

Os conjuntos de dados estão crescendo e, à medida que os volumes e a complexidade aumentam, cresce também o desafio de detectar fraudes. Por isso, um sistema de aprendizado de máquina precisa ser bem dimensionado, já que os problemas do mundo real são medidos em gigabytes ou até mesmo terabytes ou petabytes de dados.

Além disso, não existe um algoritmo ou método de aprendizado de máquina únicos para a tarefa. O cientista de dados vai precisar de um kit de ferramentas com uma variedade de métodos supervisionados e não supervisionados e diversidade de técnicas de computação.

Por fim, há um aspecto criativo ou “artístico” no aprendizado de máquina para detecção de fraudes. Ele é mais eficaz que qualquer método isolado com aplicado de maneiras novas e inovadoras, que combinem uma variedade de métodos supervisionados e não supervisionados em um sistema.

Pense diferente

O monitoramento contínuo da detecção de fraudes em máquinas é imprescindível para o sucesso. À medida que os dados mudam, as entradas esperadas no sistema se degradam e, portanto, afetam o desempenho geral. Isso não é exclusivo dos sistemas de aprendizado de máquina; sistemas baseados em regras enfrentam o mesmo problema. Mas novos métodos de aprendizado de máquina podem se adaptar a padrões novos e não identificados à medida que ocorrem mudanças.

Um bom programa de monitoramento examina proativamente os dados que entram no sistema, avalia as previsões e explicações do modelo de aprendizado de máquina e alerta os administradores para mudar as tendências e estatísticas de dados.

É preciso ressaltar também que os programas de aprendizado de máquina bem-sucedidos têm um elemento de experimentação contínua. Não é suficiente construir um modelo de aprendizado de máquina e acreditar que isso resolverá tudo. Os fraudadores são inteligentes e a tecnologia está mudando rapidamente. Ter uma “caixa de areia” (sandbox) para experimentar novos métodos, dados e técnicas para combater fraudes é importante

Comentários

Notícias Relacionadas

IT Mídia S.A.

Copyright 2018 IT Mídia S.A. Todos os direitos reservados.