O que é o big data?
Com a evolução constante das ferramentas digitais colocadas à nossa disposição, existem cada vez mais dados a serem gerados. Antes, a quantidade de informação gerada dava-nos a possibilidade de quantificar, analisar e armazenar de forma relativamente simples com ferramentas clássicas. Atualmente, é necessário poder armazenar o conjunto de dados volumosos e tratá-los rapidamente, frequentemente em tempo real, para poder tirar partido dos mesmos. Assim, os projetos big data requerem arquiteturas e infraestruturas pensadas para esta utilização. O cloud computing responde a estas expectativas.

Definição do big data
Quando falamos de big data ou dados massivos, designamos volumes de dados muito importantes. Na vida quotidiana, muitas das nossas ações geram dados. Da mesma forma, quando utilizamos uma aplicação ou um website, recorremos a uma grande quantidade de dados. Esta quantidade é simplesmente impossível de tratar para uma pessoa ou ferramenta de análise clássica. De forma a automatizar a recolha e o tratamento destes dados, as empresas privadas, as administrações públicas, as redes sociais, as aplicações móveis e os institutos de investigação, entre outros, criam projetos de big data.
As novas ferramentas permitem o armazenamento e o tratamento distribuído destes dados: Hadoop, Apache Spark, Kafka, Flink, MongoDB, etc. O objetivo do big data é valorizar dados que não têm valor se forem explorados individualmente. Com a aparição destas ferramentas e usos, surgiram novas profissões: data analysts, data engineers, data scientists, consultores especializados em big data, etc. O papel destas pessoas é acompanhar as empresas de forma operacional.
O big data através dos 4 v
Para melhor compreender o que é o big data, é preciso conhecer três aspetos fundamentais como o volume, a velocidade e a variedade. Um quarto aspeto também é importante quando falamos do tratamento de um grande volume de dados: a veracidade.
- Volume
Qualquer empresa ou organização gera informação. A multiplicidade de fontes de dados e a necessidade de as quantificar e controlar obrigam a armazenar volumes de informações cada vez mais importantes. Embora a maior parte dos dados recolhidos sejam de baixa qualidade, a sua estruturação e cruzamento fazem deles dados preciosos.
A infraestrutura utilizada no âmbito de um projeto de big data deve, portanto, dispor de um espaço de armazenamento muito importante para fazer face ao fluxo de dados, cujo aumento pode ser exponencial à medida que o projeto evolui.
- Velocidade
As informações armazenadas podem tornar-se obsoletas se não forem tratadas a tempo. A velocidade de recolha e tratamento dos dados são variáveis essenciais, pelo que requerem ferramentas de análise em tempo real. As ferramentas tradicionais são capazes de gerir fluxos de informação em diferido e com possibilidades de cruzamento muito reduzidas. É por isso que as novas ferramentas orientadas para o big data propõem métodos de análise e de tratamento cujos desempenhos são desmultiplicados de forma a evitar perder a “frescura” da informação.
- Variedade
Quanto mais variadas forem as fontes de informação, mais qualitativa será a análise daí resultante. Esta variedade também induz numerosos formatos de recursos recolhidos. Assim, podemos trabalhar tanto com dados temporais, geográficos e transacionais como com dados extraídos do seu contexto (áudio, vídeo e texto). A utilidade do tratamento big data baseia-se na sua capacidade de cruzar e tirar partido destes dados com vários objetivos: melhoria de um produto, evolução de um serviço, melhor compreensão dos clientes ou previsão das futuras ações a implementar.
-
Veracidade
Para além da forma como estes dados volumosos serão armazenados e da velocidade com que serão tratados, coloca-se outra questão: a sua exatidão.
De facto, o tratamento de dados no âmbito do big data é uma operação onerosa com implicações reais para o futuro de uma empresa. Se os dados utilizados forem falsos ou inexatos, o resultado da análise desses dados também o será. Isto pode conduzir a decisões que não refletem a realidade.
Os diferentes casos de uso do big data
- Desenvolver produtos
Graças à análise preditiva e à visualização dos dados, a exploração dos dados em torno de um produto permite compreender melhor as necessidades dos compradores e como lhes dar resposta. A melhoria dos produtos atuais e o desenvolvimento de novos produtos estão mais próximos da realidade.
- Realizar uma manutenção preditiva
Antecipar o envelhecimento dos equipamentos e prever avarias mecânicas são um desafio importante para as indústrias. A utilização de análises preditivas pode contribuir para a substituição de uma máquina em fim de vida ou próxima da avaria, o que representa uma economia importante à escala da empresa.
- Prever as necessidades futuras
Prever o que vão ser as necessidades nos próximos anos é uma tarefa muito aleatória. O big data intervém dando a possibilidade de prever, com a ajuda de dados sólidos, as estratégias a adotar a curto, médio ou longo prazo. Trata-se de um importante instrumento de apoio à tomada de decisões.
- Fazer face às fraudes
Devido à sua dimensão, as médias e as grandes empresas têm de fazer face a tentativas de fraude cada vez mais elaboradas. Estas fraudes, difíceis de identificar devido ao fluxo de dados digitais, são o resultado de esquemas e de manipulações recorrentes que é possível detetar. Assim, a análise dos comportamentos suspeitos permite uma maior vigilância e ação contra estas tentativas de fraude.
- Preparar os dados para o machine learning
A aprendizagem automática da inteligência artificial requer dados. Em teoria, quanto mais dados houver, mais preciso será o resultado da aprendizagem. O big data permite limpar, qualificar e estruturar os dados que alimentam os algoritmos do machine learning.

As tecnologias big data
- Apache Hadoop
Trata-se de uma framework open source que torna possível a exploração de grandes volumes de dados através de aplicações. Hadoop é capaz de armazenar petabytes de informações, distribuindo-os através dos diferentes nós de um cluster. Assim, os dados podem responder eficazmente aos pedidos graças à arquitetura MapReduce.
Este software, que funciona como um armazém de dados e permite valorizar os dados, encarrega-se das avarias de hardware que podem ocorrer numa parte da infraestrutura, evitando que haja perdas de dados ou interrupções da atividade, por exemplo.
- Apache Spark
Outra framework dedicada ao big data, Spark é utilizada para o tratamento de dados estáticos ou em tempo real. A sua arquitetura de dados faz com que funcione de forma mais rápida (tempo de tratamento reduzido) do que o MapReduce, o sistema de tratamento de Hadoop. Uma vez que não dispõe de uma função de armazenamento de informações distribuídas, o Spark pode ser utilizado em conjunto com o Hadoop para a valorização dos dados, ou ainda com soluções de armazenamento de objetos S3.
- MongoDB
A grande volumetria associada ao big data obriga a desviar-se do funcionamento clássico das bases de dados relacionais estruturadas. Assim, foi criado o MongoDB, um sistema de gestão das bases de dados distribuídas NoSQL. Ao redefinir a forma de integrar e servir os dados de base, este sistema responde perfeitamente à necessidade de processar rapidamente as informações nos projetos de big data.
- Python
Considerado a linguagem mais utilizada no âmbito do machine learning, Python é ideal para a sua solução de big data. Muito popular e compatível com a maior parte dos sistemas operativos, Python é utilizado pelos programadores e data scientists pela sua simplicidade de utilização e pelo seu ganho de tempo na criação de algoritmos. Existem várias bibliotecas que permitem facilitar o trabalho dos programadores nos domínios informáticos de “data science”, “data analysis”, “data management” e muitos outros.
Descubra as nossas soluções big data e cloud para todos os seus grandes projetos:
O big data no centro da transformação digital
As fontes de dados não estruturadas e a sua tipologia são variadas: atividade web, objetos ligados, hábitos de consumo, CRM, etc. Uma estratégia de marketing digital permite às empresas explorar os dados para fins de análise para tirar partido destes dados brutos. Um data analyst pode interpretar os dados disponíveis e participar no processo de decisão, por exemplo, com assuntos como a relação com o cliente ou o conhecimento do cliente. Modelizar a sua arquitetura big data e integrá-la na sua transformação digital utilizando soluções de análise de dados são aspetos que devemos considerar no momento de tomar decisões.
Inteligência artificial e big data
A inteligência artificial, tal como a inteligência humana, alimenta-se de informações. Quanto maior for a quantidade de dados disponíveis para a sua aprendizagem, mais eficaz será a IA em teoria. Para poder tirar o máximo de partido desta informação, os algoritmos da máquina precisam de aceder a grandes conjuntos de dados provenientes de diferentes fontes.