O que é o data mining?
Uma explicação do data mining e das suas vantagens. Esta página aborda o histórico do data mining, dos seus métodos e técnicas, bem como os desafios tecnológicos que apresenta. Também inclui exemplos de como o data mining pode ser utilizado em diferentes verticais do setor.

Definição de data mining
O data mining (exploração de dados) descreve o processo de descoberta de informações valiosas através da recolha e comparação de dados de fontes distintas e frequentemente não ligadas. Os processos computacionais extraem informações valiosas que podem ser utilizadas pelas organizações para uma gama variada de tarefas, como uma melhor compreensão dos clientes, o fomento da eficiência e a previsão de comportamentos.
Desta forma, é possível identificar padrões e correlações entre grandes conjuntos de dados, ajudando as organizações a compreender melhor os clientes, a encontrar pontos de estrangulamento nos sistemas de distribuição e até a antecipar comportamentos.
O data mining também é usado para detetar em qualquer processo anomalias que possam produzir erros imprevisíveis, reveláveis através da exploração de um conjunto de dados. Isto pode aplicar-se a um grande leque de casos de uso, como a deteção de erros em programas, cadeias de abastecimento ou processos de produção, a identificação de abusos do sistema ou a descoberta de falhas.
Um século de evolução
Mesmo antes de os computadores serem omnipresentes, os dados eram manipulados desta forma, mas o processo era manual, lento e requeria analistas qualificados para recolher, interpretar e apresentar os dados de uma forma significativa. O termo «data mining» foi cunhado na década de 1990, com a prática anteriormente referida como «descoberta de conhecimento», utilizando bases de dados que eram elementares para os padrões atuais.
A tecnologia foi usada pela primeira vez há mais de cem anos para explorar dados, quando o Departamento do Censo dos EUA reduziu o tempo necessário para analisar os resultados dos censos, de 10 anos para apenas alguns meses, usando cartões perfurados e uma máquina de tabulação.
Atualmente, os programas de data mining juntam a inteligência artificial e o machine learning à disciplina original da ciência dos dados, a estatística, com o cloud computing a oferecer uma maior potência de processamento e mais capacidades de armazenamento de dados.
Estes avanços tecnológicos resultaram numa explosão do data mining, com conjuntos de dados cada vez mais complexos a serem analisados para descobrir informações relevantes. As informações obtidas são utilizadas numa variedade de verticais, entre os quais o retalho, a banca, a produção industrial, as telecomunicações, a agricultura e os seguros. Os casos de uso incluem a venda de produtos online, a análise de risco, a descoberta de fraude financeira e até a otimização do cultivo agrícola.
Características do data mining
Antes do envolvimento de quaisquer dados, as organizações devem definir os seus objetivos; além disso, as partes interessadas e os cientistas de dados devem trabalhar em conjunto no sentido de definir um problema e o respetivo contexto, a fim de esclarecer as questões e os parâmetros que serão abordados no projeto de data mining.
De seguida, os cientistas de dados irão identificar os dados que os ajudarão a responder às perguntas elaboradas. O processo de exploração de dados para criar informações valiosas baseia-se em dados precisos e fiáveis, recolhidos junto de fontes relevantes, pelo que a escolha dos dados mais adequados se revela essencial.
Uma vez identificados, os dados devem ser limpos e estruturados num formato passível de ser facilmente comparado pelas ferramentas de data mining disponíveis. Isto inclui a eliminação de dados repetidos e de valores atípicos. Então vem o processo de construção de modelos e de exploração dos dados para padrões e correlações. Dependendo da complexidade dos dados, podem também aplicar-se algoritmos de deep learning para classificar ou agrupar um conjunto de dados.
Uma vez os dados analisados e processados, as informações geradas podem ser transmitidas aos indivíduos que utilizarão as descobertas como um auxílio na tomada de decisões.

Os desafios do data mining
Localização e recolha de dados
Um dos principais desafios que as organizações têm de enfrentar quando se realiza um projeto de data mining é descobrir e depois interligar todos os diferentes repositórios de dados.
Numa empresa moderna, os dados são armazenados em folhas de cálculo, bases de dados, sistemas integrados de gestão empresarial (ERP), programas de contabilidade e redes sociais. Estes dados encontram-se numa série de formatos estruturados e não estruturados, abrangendo cada vez mais os dados gerados pelos sensores e pelas câmaras da IoT.
Além disso, os dados estão frequentemente isolados em diferentes partes do negócio, o que significa que pode ser um desafio obter toda a informação relevante no sentido de obter uma imagem completa do que os dados representam. Também podem estar localizados em diferentes tipos de infraestrutura (cloud privada, cloud pública ou localmente).
Por conseguinte, os dados brutos devem ser localizados e recolhidos em todos os seus diferentes formatos. Depois têm de ser inseridos num repositório central, ou lago de dados, onde possam ser limpos e formatados antes de se aplicarem as ferramentas de análise.
Eliminação de erros e inconsistências
Os erros contidos nos dados brutos (incluindo duplicações e erros introduzidos durante o processo de recolha) vão gerar resultados pouco fiáveis que podem conduzir a más decisões. A preparação dos dados brutos é, portanto, essencial, a fim de se eliminarem todas as anomalias.
Outra questão prende-se com os diferentes formatos em que os dados serão apresentados. Para além dos dados de fontes internas, haverá que tratar dados externos (nomeadamente notícias, preços de ações/matérias-primas e taxas de câmbio). Tudo isto pode afetar as decisões tomadas por uma empresa aquando da fixação dos preços dos produtos, da realização de investimentos ou da escolha de um mercado-alvo.
Assim, os campos em que os dados são introduzidos precisam de ser normalizados para assegurar que a informação seja lida eficazmente por ferramentas de análise e de visualização após a sua inserção no lago de dados.
Tratamento manual
Os dados a explorar precisam, antes de mais, de ser transportados, transformados e visualizados. Se algum destes processos for manual, pode não só ser demorado como também correr o risco de introduzir novos erros nos dados.
A automatização destes processos reduz as possibilidades de ocorrência de novos erros e acelera o processo, o que possibilita a obtenção mais rápida de informações e, nalguns casos, em tempo real.
Escalabilidade
Com a quantidade de dados agora disponível às organizações, a escalabilidade para processar tudo de forma eficaz revela-se outro desafio. Nos datacenters locais, tem sido historicamente difícil para as organizações, em particular para as pequenas e médias empresas, expandir facilmente a sua capacidade de cálculo. Muitas vezes, é necessário adquirir, instalar e manter novo hardware — algo que muitas organizações não conseguem justificar.
Atualmente, com o armazenamento e o processamento de dados baseados na cloud, as empresas podem pagar para aumentar a capacidade de cálculo de modo a lidar com conjuntos de dados maiores e mais complexos. Uma vez concluído o data mining, as organizações podem transferir os dados para um armazenamento de custo inferior e deixar de pagar pelo processamento dos dados.
Segurança dos dados
Geralmente, os dados contêm propriedade intelectual, identificação pessoal, volumes de vendas, contas e outras informações confidenciais. A segurança dos dados é, portanto, vital — tanto durante o repouso quanto durante a utilização.
Os dados em utilização encontram-se na memória ativa, onde são mais vulneráveis. Uma proteção para os dados neste estado são as ferramentas de segurança que permitem que regiões de memória, ou enclaves, sejam protegidas e apenas acessíveis por processos internos de um enclave atribuído.
Outra abordagem é a aprendizagem federada, em que as organizações aplicam algoritmos de machine learning e de IA para criar e melhorar modelos sem comprometer conjuntos de dados que incluem informação confidencial.
Técnicas de data mining
O data mining dispõe de várias abordagens, em função das informações desejadas. Por exemplo, as regras de associação são um método baseado em regras para determinar relacionamentos entre variáveis de dados. Esta abordagem é frequentemente utilizada na análise de itens dos carrinhos de compras, de modo que as empresas podem melhorar a sua compreensão de como os consumidores compram determinados produtos em conjunto, ajudando a fomentar vendas cruzadas e a fornecer recomendações.
As redes neurais são algoritmos de deep learning que processam dados de treino, ao imitar as conexões no cérebro humano por meio de camadas de nós. Cada nó é composto por entradas, uma camada intermediária e uma saída. Se o valor de saída exceder determinado limite, um nó é ativado para passar dados para a camada seguinte na rede.
Para classificar ou prever resultados potenciais usando métodos de classificação ou regressão, as árvores de decisão usam uma visualização que se assemelha aos ramos de uma árvore para mostrar potenciais resultados das decisões.
Por fim, o algoritmo KNN, ou K-nearest neighbour, classifica os pontos de dados em função da sua localização e da sua associação a outros dados. Assume que podem encontrar-se pontos de dados semelhantes próximos uns dos outros e, de seguida, calcula a distância entre os pontos para identificar padrões.

Exemplos de data mining
Venda a retalho: A combinação e a análise de dados dos padrões de navegação e de hábitos de consumo de um cliente podem ajudar o retalhista a compreender melhor os tipos de clientes que visitam o seu site e a oferecer uma experiência mais pessoal.
A empresa pode querer proporcionar experiências diferentes a clientes que gastam muito mas visitam com pouca frequência, em comparação com os clientes que gastam pouco mas visitam o site com regularidade.
As técnicas de data mining podem ajudar os retalhistas a vender produtos de forma cruzada e a aumentar as receitas. Por exemplo, se um cliente adquire o produto A, pode estar interessado num produto B complementar ou relacionado. Também se torna possível oferecer a esse cliente um produto alternativo, mas semelhante, com uma margem de lucro mais elevada.
O data mining revela igualmente a elasticidade de preço de um cliente: se continua a adquirir um produto ou serviço se o preço aumentar, e quão provável é que compre mais se o produto custar menos. As empresas poderiam utilizar o data mining para compreender como os seus lucros seriam afetados se alterassem o preço de determinado produto.
Seguros e finanças: Uma companhia de seguros pode analisar dados de clientes que se candidatam a apólices. Se o cliente preencher o formulário várias vezes com informações diferentes para obter o orçamento mais barato, esse comportamento pode ser completamente inocente. No entanto, se o cliente escolher opções que contradigam a informação já armazenada sobre ele a partir de uma subscrição anterior, isso pode ser uma chamada de atenção para investigação posterior.
Há anos que o setor bancário utiliza a IA para monitorizar os dados transacionais dos clientes, a fim de seguir hábitos de consumo (como montantes normalmente levantados em caixas multibanco ou os tipos de produtos adquiridos com recurso a cartões de crédito). Se a IA se deparar com o levantamento de um montante anormal a partir de uma localização inesperada, ou se identificar uma compra com cartão de crédito que não se enquadra nos padrões habituais, isso poderá sugerir uma operação fraudulenta.
A análise de dados é comummente utilizada pelas instituições financeiras para os requerentes de empréstimos. O histórico de pagamentos de um potencial cliente, o rácio de pagamento/rendimento e o histórico de crédito podem ser utilizados para determinar o risco da atribuição do empréstimo e definir as respetivas condições e taxas de juro.
Quanto mais dados forem recolhidos, mais fácil se torna distinguir entre comportamentos normais e atividades suspeitas passíveis de justificar uma investigação.
Agricultura: As ferramentas de data mining também podem ser utilizadas por empresas agrícolas. Ao reunir e analisar dados, como os níveis de irrigação, as horas de luz solar, a exposição ao vento e a outros elementos, os nutrientes (presentes no solo ou adicionados) e o risco de as culturas serem comidas ou danificadas por animais selvagens, os agricultores passam a ser capazes de determinar o rendimento das plantações, mas também de identificar áreas em que podem fazer mudanças, a fim de produzir mais e mais rápido.
Operações complexas: As técnicas de data mining podem igualmente ser usadas para melhorar processos operacionais (como a identificação de estrangulamentos dispendiosos, de processos ineficientes e de problemas na cadeia de abastecimento) ou de tomada de decisões. Por vezes designada como «process mining», esta solução permite monitorizar processos e medir melhorias, facilitar a conformidade e analisar várias funções, incluindo centros de contacto.