O que é a aprendizagem supervisionada?
Em seu núcleo, a aprendizagem supervisionada é um tipo de aprendizagem automática onde o algoritmo aprende a partir de dados classificados.
Pensem na aprendizagem supervisionada como um estudante a aprender com um professor. O "professor" (que é frequentemente um data scientists ou especialista em domínio) fornece ao computador um conjunto de exemplos, onde cada exemplo inclui tanto a entrada quanto a saída correta correspondente.

O objetivo fundamental de uma aprendizagem supervisionada é que o algoritmo "aprenda" uma regra geral ou uma função de mapeamento que possa obter entradas novas e não vistas e prever o resultado correto para elas. Chama-se "supervisionado" porque o processo de aprendizagem de um algoritmo a partir do conjunto de dados de treino pode ser pensado como um professor que supervisiona o processo de aprendizagem.
Sabemos as respostas corretas (rótulos), o algoritmo faz iterativamente previsões nos dados de treino e é corrigido pelo professor. A aprendizagem pára quando o algoritmo atinge um nível aceitável de desempenho.
Como funciona a aprendizagem supervisionada?
A aprendizagem supervisionada pode parecer complexa, mas os métodos subjacentes seguem um fluxo de trabalho estruturado. Trata-se de ensinar uma máquina mostrando-lhe exemplos e testando depois o seu entendimento. Veja abaixo um resumo dos passos típicos envolvidos:
Recolha e preparação de dados com etiqueta
O processo começa com a coleta de dados relevantes. Fundamentalmente, para uma aprendizagem supervisionada por máquina, estes dados devem ser rotulados. Isso significa que cada peça de dados de entrada é emparelhada com uma saída ou "tag" correta correspondente. Por exemplo, se estiver a construir um detetor de SPAM, os seus dados serão os e-mails (entrada) rotulados como "spam" ou "não spam" (saída).
A qualidade e a quantidade destes dados rotulados são primordiais nos métodos utilizados. Quanto mais alta qualidade, exemplos relevantes o modelo vê, melhor geralmente aprenderá e executará. Muitas vezes, esta etapa consiste em limpar os dados (tratar os valores em falta, eliminar os erros) e em pré-processar (transformar os dados num formato adaptado ao algoritmo).
Dividir os dados em conjuntos de treino, validação e teste
Assim que tiver o seu conjunto de dados etiquetado, é prática habitual não utilizar todo esse conjunto para ensinar diretamente o modelo. Em vez disso, é tipicamente dividida. O Training Set é a maior parte dos dados e é utilizado para treinar o modelo de machine learning. O modelo "vê" estes exemplos e aprende a relação entre as entradas e as respetivas etiquetas.
Durante o processo de treino, é utilizado um Conjunto de Validação (opcional mas altamente recomendado) para afinar os parâmetros do modelo (hiperparâmetros) e tomar decisões sobre a arquitetura do modelo. Isto ajuda a evitar que o modelo se torne demasiado especializado em relação aos dados de treino (um problema conhecido como "sobreajuste"), ao fornecer uma avaliação imparcial à medida que aprende.
Por fim, o Test Set é utilizado após o modelo ter sido treinado (e validado) para fornecer uma avaliação imparcial do desempenho do modelo final. Estes dados nunca foram vistos pelo modelo antes, pelo que dão uma boa indicação do desempenho do modelo em novos dados do mundo real.
Escolher um modelo (Seleção do algoritmo)
Com base no problema que está a tentar resolver (por exemplo, prever uma categoria como "spam/not spam" - classificação, ou prever um valor contínuo como um preço da casa - regressão) e a natureza dos seus dados, irá selecionar um algoritmo de aprendizagem supervisionado adequado. Existem muitos algoritmos por onde escolher, como Regressão Linear, Regressão Logística, Árvores de Decisão, Máquinas vetoriais de suporte (MV), Redes neurais, e muito mais.
Treinar o modelo
É aqui que acontece a "aprendizagem". O algoritmo escolhido processa o conjunto de treino. O modelo faz predições baseadas nos dados de entrada e compara essas predições com os rótulos conhecidos.
Em caso de discrepância (erro), o algoritmo ajusta os parâmetros internos para, numa próxima ocasião, poder fazer melhores previsões. Isto é frequentemente feito tentando minimizar uma "função de perda", que quantifica o quão distantes as previsões do modelo estão dos valores reais.
Este processo de ajuste iterativo continua até que o modelo atinja um nível satisfatório de precisão nos dados de treino (e funcione bem nos dados de validação).
Avaliar o Modelo
Uma vez concluído o treino, o desempenho do modelo é avaliado utilizando o conjunto de teste. Métricas comuns usadas para avaliação dependem do tipo de problema.
Para a classificação, métricas como a precisão, a recolha e a pontuação F1 são comuns. Para a regressão, o valor de Mean Squared Error (MSE) ou R-squared é frequentemente usado. Este passo é crucial para compreender em que medida é provável que o modelo se generalize para dados novos e não vistos.
Se o desempenho do modelo for satisfatório, pode ser implementado para fazer previsões sobre novos dados dinâmicos. Por exemplo, o nosso filtro de spam começaria agora a classificar os e-mails que entram na sua conta e que nunca tinha visto antes. É igualmente importante monitorizar continuamente o desempenho do modelo no mundo real, uma vez que os padrões dos dados podem mudar ao longo do tempo (um conceito conhecido como "desvio de modelo"), o que pode exigir uma reciclagem ou ajustes do modelo.
Em essência, a aprendizagem supervisionada é um processo iterativo que consiste em alimentar algoritmos com exemplos classificados, permitindo-lhe aprender padrões e, posteriormente, testar a sua capacidade de generalizar esses padrões para novos dados.
Tipos de machine learning supervisionados
Problemas de aprendizagem supervisionados, embora todos enraizados no princípio de aprender a partir de dados classificados, são geralmente distinguidos em duas categorias principais: Classificação e Regressão. A diferença fundamental entre eles depende da natureza da saída que o modelo foi concebido para prever.
Classificação:
A classificação diz respeito a tarefas em que o objetivo é prever uma categoria ou classificação discreta. Isso significa que a variável de saída não é um número que pode variar continuamente, mas sim um grupo distinto, como "sim" ou "não", "spam" ou "não spam", ou tipos de objeto específicos como "gato", "cachorro" ou "humano".
O modelo aprende a partir de um conjunto de dados de treino em que a cada entrada já é atribuída uma classe predefinida. O seu objetivo torna-se então atribuir com precisão novos pontos de dados não vistos a uma destas categorias aprendidas.
Existem inúmeras aplicações práticas de classificação. Por exemplo, na deteção de e-mail de spam, os modelos classificam os e-mails de entrada como "spam" ou "não spam". Tarefas de reconhecimento de imagens usam a classificação para identificar objetos dentro de imagens, como categorizar uma imagem como contendo um "carro", "bicicleta" ou "pedestre".
Regressão:
Por outro lado, a regressão é a técnica de aprendizagem supervisionada utilizada quando a variável de saída é um valor numérico contínuo. Ao contrário da classificação, que prevê a que categoria algo pertence, a regressão tem como objetivo prever quanto de algo existe ou o que um valor numérico específico será. O modelo aprende a mapear variáveis de entrada para uma saída contínua.
Os exemplos de regressão do mundo real são abundantes. A previsão do preço das casas envolve estimar o preço de mercado de uma casa com base em características como o seu tamanho, número de quartos, e localização. Em finanças, os modelos de regressão são usados para a previsão de preços de ações, na tentativa de prever valores de ações futuros para as decisões serem baseadas.
Algoritmos comuns utilizados para tarefas de regressão incluem Regressão Linear e Regressão Polinomial. O Suporte à Regressão de Vetores (SVR) é outra escolha popular, juntamente com algoritmos adaptáveis como Árvores de Decisão, Florestas Aleatórias e Redes Neuronais quando configurados para saída contínua.
Aprendizagem supervisionada vs. aprendizagem não supervisionada
Embora a aprendizagem supervisionada e não supervisionada sejam pilares fundamentais da aprendizagem e da predição automáticas, abordam problemas utilizando metodologias e objetivos fundamentalmente diferentes, distinguindo-se principalmente pelo tipo de dados que utilizam e pelos objetivos que visam atingir. A compreensão das diferenças é essencial para escolher a abordagem adequada a uma determinada tarefa.
Escolher os dados de entrada
O exemplo mais significativo de uma distinção reside na natureza dos dados de entrada. A aprendizagem supervisionada, como discutimos, baseia-se em dados classificados. Isto significa que, durante a sua fase de treino, o algoritmo é fornecido com conjuntos de dados em que cada exemplo de entrada é emparelhado com uma saída ou "etiqueta" correta correspondente.
Aprende através da comparação da sua previsão com estes rótulos conhecidos e do ajuste para minimizar os erros. Pensem nisto como o machine learning com um professor que fornece as respostas.
Consideração de dados não classificados
Em contraste flagrante, a aprendizagem não supervisionada funciona com dados não classificados. Os algoritmos recebem dados que consistem apenas em funcionalidades de entrada, sem variáveis de saída explícitas nem respostas corretas fornecidas. O objetivo aqui não é prever uma saída predefinida, mas sim explorar os dados e descobrir estruturas inerentes, padrões ou relações dentro deles. É como aprender observando e identificando padrões por conta própria, sem orientação explícita de um professor.
O aspeto da "supervisão" demarca claramente as duas coisas. Na aprendizagem supervisionada, a presença de etiquetas fornece um feedback direto sobre o processo de aprendizagem em que se baseia. O algoritmo é explicitamente dito o que a saída correta deve ser para cada entrada, guiando o seu aprendizado. Na aprendizagem não supervisionada, não existe tal orientação explícita. Os algoritmos devem inferir padrões e relações unicamente a partir das características dos dados de entrada.
Exemplos de casos de uso de machine learning supervisionados
A aprendizagem supervisionada não é apenas um conceito ou previsão teórica; é o motor por detrás de uma vasta gama de aplicações que têm impacto na nossa vida quotidiana e em várias indústrias. A sua capacidade de aprender a partir de exemplos classificados torna-o inestimável para tarefas que requerem predição e classificação. Aqui estão alguns casos de uso proeminentes:
- Reconhecimento de imagens e objetos: Esta é uma aplicação clássica da classificação. Os modelos de aprendizagem supervisionados são treinados em conjuntos de dados de imagens massivos, onde cada imagem é rotulada com os objetos que contém (por exemplo, "gato", "carro", "pedestre", "árvore").
- Deteção de spam do correio eletrónico: Uma das primeiras e mais amplamente adotada utilizações da aprendizagem supervisionada (especificamente a classificação) consiste na filtragem de e-mails de spam. Os modelos são treinados num vasto conjunto de e-mails que foram manualmente rotulados como "spam" ou "não spam" (frequentemente chamados "ham").
- Diagnóstico médico e saúde: A aprendizagem supervisionada desempenha um papel cada vez mais importante na saúde, ao ajudar os profissionais da saúde no diagnóstico de doenças. Os modelos podem ser treinados em dados de pacientes - incluindo sintomas, histórico médico, resultados de laboratório e imagens médicas - classificados com diagnósticos confirmados.
- Análise de sentimentos: As empresas e as organizações contam estreitamente com a compreensão da opinião pública e o feedback dos clientes. Os modelos de aprendizagem supervisionados (classificação) são treinados em dados de texto (como avaliações de produtos, publicações em redes sociais ou respostas a inquéritos) que tenham sido classificados com sentimentos tais como "positivo", "negativo" ou "neutro".
- Deteção de fraude financeira: No sector financeiro, a aprendizagem supervisionada é crítica para identificar e evitar transações fraudulentas. Os modelos são treinados sobre dados históricos de transações, em que cada transação é considerada "fraudulenta" ou "legítima".
- Prever preços das casas e valores das ações (regressão): Os modelos de regressão no Machine Learning supervisionado são amplamente utilizados nas finanças e no imobiliário. Para prever os preços das casas, os modelos são treinados em dados de vendas de propriedades passadas, incluindo características como tamanho, número de quartos, localização, idade e amenidades, juntamente com seus preços de venda correspondentes.
A lista de exemplos acima representa apenas uma fração das formas como a aprendizagem supervisionada está a ser aplicada. À medida que os dados se tornam mais abundantes e que a potência de cálculo aumenta, o alcance e a sofisticação dos seus casos de uso só continuarão a aumentar.
OVHcloud e aprendizagem supervisionada
A OVHcloud oferece um conjunto de soluções concebidas para suportar todas as etapas do ciclo de vida da aprendizagem sob supervisão. Quer pretenda implementar facilmente modelos treinados, construir e treinar novos modelos à escala ou tirar partido de uma infraestrutura cloud flexível, a OVHcloud oferece-lhe as ferramentas para transformar os seus dados em informações práticas.

AI Endpoints
Implemente facilmente os seus modelos de machine learning na produção com os AI Endpoints. Concentre-se nos seus algoritmos enquanto lidamos com a infraestrutura. O nosso serviço gerido permite-lhe expor os seus modelos qualificados através de API HTTP escaláveis e seguras, disponibilizando-os assim para previsões em tempo real.

Machine Learning
Liberte todo o potencial dos seus dados com soluções de machine learning. Esta potente plataforma fornece aos cientistas e programadores de dados um ambiente completo para construir, treinar e implementar modelos de machine learning à escala.

Public Cloud
Descubra as nossas soluções cloud, concebidas para lhe oferecer um controlo e uma flexibilidade completos sobre a sua infraestrutura. Construa, implemente e gira as suas aplicações com as nossas instâncias de cálculo a pedido, soluções de armazenamento escaláveis e capacidades de rede robustas.