O que é o Machine Learning?


A cada dia, geramos mais informações com a multiplicidade das tecnologias que utilizamos (smartphones, computadores, tablets, connected objects...). Todos estes dispositivos geram uma quantidade de dados massiva. Uma pessoa gera, em média, 1,7 MB de dados por segundo em 2020. Estas últimas são armazenadas em bases digitais e representam uma fonte de informação considerável: é o Big Data. Mas, sem um tratamento adequado ou uma estratégia eficaz, esta massa permaneceria apenas um conjunto de bytes problemáticos a amontoar. É neste momento que o machine learning entra em ação e permite tirar partido dele.

La définition du Machine Learning – OVHcloud

O que é o Machine Learning?

Os primeiros algoritmos de Machine Learning foram elaborados em 1950. Machine Learning (aprendizagem de máquina) é uma tecnologia e ciência que permite a um computador efetuar um processo de aprendizagem sem ter sido programado para o efeito. Esta técnica, ligada ao setor da inteligência artificial (IA), tem por objetivo identificar padrões (esquemas de repetições estatísticas) e extrair previsões estatísticas. O "data mining" (perfuração ou escavação de dados), que consiste na extração de informações numa grande quantidade de dados, serve de matéria-prima ao machine learning para que possa pôr em evidência os esquemas para a previsão estatística. É por isso que o Big Data (conjunto de dados produzidos e armazenados) é indissociável do Machine Learning. Quanto mais importante é o conjunto que permite identificar tendências, mais exatas são as previsões.

De forma mais precisa, o algoritmo de aprendizagem aplicado permite ao computador especificar a sua análise e as suas respostas com base em dados empíricos provenientes da base de dados associada. O Machine Learning representa um modelo de aprendizagem de oportunidade para os profissionais, pois permite-lhes tirar partido das informações geradas pelos seus clientes ou pela sua atividade. A inteligência artificial representa, portanto, um grande desafio se quiserem tirar o maior partido do jogo.

Existem vários tipos de aprendizagem classificados segundo os dados existentes durante a fase de aprendizagem. Se já se conhece a resposta à tarefa definida, diz-se que os dados estão rotulados. Neste caso, fala-se de aprendizagem supervisionada. Em função da natureza dos dados, se forem discretos ou contínuos, fala-se de classificação ou de regressão. Se a aprendizagem se desenrolar passo a passo, com um sistema de recompensas por cada tarefa efetuada corretamente, é então realizada uma aprendizagem por reforço. O caso mais recorrente de aprendizagem é a aprendizagem não supervisionada, que consiste numa investigação sem rótulos. Visa prever um resultado sem ter respostas previamente conhecidas.

Tipos de aprendizagem automática: duas abordagens

Machine Learning supervisionado

O Machine Learning supervisionado é um tipo de aprendizagem automática em que um modelo é acionado num conjunto de dados rotulados. Isto significa que cada exemplo do conjunto de dados comporta uma entrada (ou característica) e uma saída correspondente (ou etiqueta). O objetivo é aprender uma função que, a partir das características de entrada, prevê corretamente os rótulos de saída para novos dados.

O processo de base do Machine Learning supervisionado é o seguinte.

  1. Recolha de dados: Recolher um conjunto de dados com exemplos rotulados.
  2. Divisão dos dados: separar os dados em conjuntos de acionamento e de teste.
  3. Treino: utilizar o conjunto de treino para aprender um modelo que ligue as características de entrada às etiquetas de saída.
  4. Validação e teste: avaliar o desempenho do modelo no conjunto de testes para verificar a sua precisão e capacidade de generalização.

O machine learning supervisionado é utilizado em vários tipos de atividades: para a classificação (por exemplo, determinar uma categoria como o spam) ou prever um valor numérico (por exemplo, estimar o preço de uma casa em função das suas características).

A aprendizagem supervisionada é utilizada em numerosas aplicações práticas: reconhecimento da fala, deteção de fraude ou ainda sistemas de recomendação.

Machine learning não supervisionado

O Machine Learning não supervisionado é um tipo de aprendizagem automática em que um modelo é acionado com base em dados não rotulados. Ao contrário da aprendizagem supervisionada, não há uma saída predefinida. O objetivo é encontrar estruturas ou padrões ocultos nos dados.

Principais tipos de aprendizagem não supervisionada:

  • Clustering (agrupamento): dividir os dados em grupos ou clusters baseados nas semelhanças (por exemplo, agrupar clientes com comportamentos de compra semelhantes);
  • redução de dimensionalidade: simplificar os dados reduzindo o número de características, conservando o essencial da informação (por exemplo, o método das componentes principais ou PCA).

Exemplos comuns de utilização do machine learning não supervisionado:

  • segmentação da clientela: identificar grupos de clientes e clientes com comportamentos ou características semelhantes;
  • Deteção de anomalias: detetar dados invulgares que não seguem o comportamento geral (por exemplo, detetar transações fraudulentas).

A aprendizagem não supervisionada é útil para explorar dados e descobrir padrões ou relacionamentos sem a necessidade de conhecimentos prévios sobre os rótulos ou os resultados esperados.

Quando utilizar o Machine Learning?

A potência e o interesse do Machine Learning residem na sua capacidade de tratar um enorme volume de dados, impossível de tratar para o cérebro humano. Os setores que recolhem uma grande quantidade de dados precisam de uma solução para os tratar e extrair uma informação útil para tomar decisões. A análise preditiva destes dados permite antecipar situações exatas. É esse o interesse do Machine Learning. Consideremos, por exemplo, o setor financeiro. O Machine Learning permite detetar fraudes, comportamentos litigiosos e outros elementos essenciais no funcionamento das instituições financeiras.

Os dados transacionais que emitimos cada vez mais servem também às empresas para visarem os seus clientes com base no seu comportamento de compra, identificando repetições. O que consultamos online e os sites que visitamos também geram dados que podem ser usados pelo Machine Learning para definir as nossas preferências. É, portanto, evidente que esta técnica de tratamento de dados, sem necessidade da intervenção do humano, é uma mais-valia essencial para as empresas que pretendem tirar partido da massa de informações de que dispõem. É improvável que um ser humano possa tirar partido destas informações devido à enorme quantidade de dados a tratar. Tomemos por exemplo as grandes empresas pertencentes aos GAFAM: a implantação da IA e do machine learning nos seus processos tornou-se uma necessidade, devido ao fluxo de dados explorável consequente que geram.

Com a crescente produção de dados, cada vez mais empresas terão de integrar esta tecnologia na sua estrutura de forma a tirar melhor partido das informações de que dispõem. Por exemplo, vejamos o caso dos objetos ligados que estão cada vez mais presentes no nosso quotidiano. Em 2019, mais de 8 mil milhões de connected objects tinham integrado a nossa sociedade, permitindo recolher mais dados sobre o nosso ritmo de vida, o nosso consumo, os nossos hábitos, baseando-se no nosso reconhecimento de voz. Tudo isto representa uma massa de informações crítica para as empresas e o Machine Learning permite identificar os elementos pertinentes a explorar. Como terá compreendido, o desafio é enorme. São possíveis muitas aplicações para a nossa sociedade moderna, como o reconhecimento facial, o carro autónomo, a robótica, as casas inteligentes... O que está em causa é saber implementar esta vantagem de forma adaptada. Esta tecnologia não se destina apenas às equipas de desenvolvimento experientes no domínio da IA. Várias empresas lançam-se na aventura do Machine Learning ao escolherem soluções chave na mão adaptadas aos seus objetivos.

O funcionamento do Machine Learning

A base do funcionamento do Machine Learning baseia-se na "experiência". O computador recupera uma grande quantidade de dados que vai utilizar para analisar e prever situações. O objetivo do processo é que a máquina possa elaborar por si própria um "plano interno" que lhe permita identificar os elementos-chave que se deseja visar. Vai ter de "experimentar" vários exemplos e testes para poder progredir e é por esta razão que se fala de aprendizagem.
Para isso, o computador precisa de dados de aprendizagem para treinar. A exploração de dados constitui a base do funcionamento do Machine Learning. Estes são os dados de treino (ou training data set). Também precisa de um software e de algoritmos de análise. Por fim, precisará de um ambiente de implementação, geralmente um servidor adaptado às necessidades de cálculo. Existem diferentes tipos de aprendizagem que podem variar em função do conhecimento da resposta procurada ou não, do tipo de dados analisados, do ambiente de dados considerado e do tipo de ação analítica efetuada (estatísticas, comparações, reconhecimento de imagens, etc.). Os algoritmos de aprendizagem diferem em função da tarefa a realizar e a potência de cálculo que vão exigir será igualmente afetada.

A aprendizagem do computador é geralmente composta por duas partes. A primeira consiste na elaboração do modelo a partir do conjunto de dados de teste, também chamados "dados de observações". Esta parte consiste em definir a tarefa que se pretende tratar (detetar a presença de um elemento numa imagem, detetar uma recorrência estatística, a resposta ao sinal de um sensor, etc.). É a fase de teste ou de "treino". Em seguida, surge a fase de produção do modelo. Pode ser otimizada com a disponibilização de novos dados. Alguns sistemas podem eventualmente continuar a sua fase de aprendizagem durante a fase de produção, mas é necessário garantir a obtenção de feedbacks sobre os resultados produzidos, para poder assegurar a otimização do modelo e o comportamento da máquina. Outros podem continuar a aprender sozinhos e tornar-se autónomos.

A qualidade desta aprendizagem depende de vários fatores:

Número de exemplos relevantes que o computador pode considerar. Quanto mais existem, mais precisos são os resultados

Número de características que descrevem os exemplos. Quanto mais simples e precisas forem (tamanho, peso, quantidade, velocidade, etc.), mais rápida e exata será a análise.

Qualidade da base de dados utilizada. Se faltarem demasiados dados, isso irá afetar o processo. Os dados falsos ou extravagantes podem também distorcer os resultados.

O algoritmo de previsão será mais preciso e a análise mais pertinente se estes elementos forem respeitados ao máximo. Assim que o projeto de aprendizagem do computador estiver definido e as bases de dados estiverem prontas, pode lançar-se no Machine Learning!

Ter sucesso com o Machine Learning OVHcloud:

Sempre nos empenhámos em trazer a tecnologia para o conjunto dos setores de atividade. Com o potencial que representa, acreditamos que a IA não deve ser reservada apenas aos gigantes da informática ou às grandes empresas. Queremos ajudá-lo e acompanhá-lo ao máximo no lançamento ambicioso dos seus projetos de IA e Machine Learning. A inteligência artificial permite aos profissionais ganhar eficácia e facilita a tomada de decisões. A OVHcloud oferece-lhe ferramentas para lhe permitir enfrentar os desafios das empresas, como as análises preditivas de conjuntos de dados, e assim tornar a sua utilização simples para todos os perfis de utilizadores. Acompanhamos os nossos clientes no desenvolvimento do seu sistema de inteligência artificial.

Com a OVHcloud, recolha e prepare os seus dados graças às nossas soluções Data Analytics. Pode modelizar passo a passo o seu projeto de Machine Learning. Implemente o seu modelo em apenas alguns cliques. Utilize as ferramentas e frameworks à sua escolha, como TensorFlow, PMML ou ONNX.

Ao trabalhar com a OVHcloud, poderá usufruir de algumas vantagens para desenvolver o seu projeto de Machine Learning:

Respeito pelos seus dados

comprometemo-nos a respeitar a confidencialidade dos seus dados pessoais. A nossa filosofia empresarial atribui grande importância à soberania dos seus dados e permite-lhe recuperá-los a qualquer momento.

Potência de cálculo

graças à automatização das implementações e das nossas infraestruturas, podemos oferecer-lhe uma potência de cálculo consequente a preços competitivos.

Open-source

no mundo dos dados, as soluções open source são atualmente as mais maduras e com melhor desempenho. A OVHcloud esforça-se por basear as suas ofertas nesses programas, como o Apache Hadoop ou o Apache Spark.

Descubra a nossa gama de produtos para Public Cloud

AI and Machine Learning OVHcloud

IA e Machine Learning

A inteligência artificial (IA) pode muitas vezes parecer uma data science reservada exclusivamente aos iniciados. Na OVHcloud, estamos convencidos do incrível potencial dessa prática em todos os setores de atividade. E pensamos que a complexidade não deve ser um impedimento à utilização do big data e do Machine Learning.

public cloud gpu

GPU

As instâncias GPU integram processadores gráficos NVIDIA para responder às exigências do cálculo massivamente paralelo. Integradas na oferta OVHcloud, estas instâncias oferecem as vantagens dos recursos a pedido e da faturação à hora,

OVHcloud AI Training

AI Training

Execute os treinos da sua inteligência artificial na cloud, sem se preocupar com o funcionamento da infraestrutura. O AI Training permite que os data scientists se concentrem no seu negócio, sem se preocuparem com a orquestração dos recursos de cálculo.