O que é um Catálogo de Dados?


Um catálogo de dados permite aos utilizadores descobrir conjuntos de dados relevantes, compreender o seu significado e linhagem e, em última análise, confiar nos dados para as suas necessidades analíticas ou operacionais.

Big data OVHcloud

Definição e Objetivo

No seu núcleo, um catálogo de dados é um inventário organizado de recursos de dados numa organização. Pense nele como um catálogo de uma biblioteca, mas para dados. Geralmente, não armazena os dados em si, mas recolhe, gere e fornece informações sobre os dados (o que é conhecido como metadados). Estes metadados oferecem um contexto, tornando os dados detetáveis, compreensíveis e fiáveis.

O catálogo de dados funciona como um repositório central e pesquisável onde os profissionais da governança de dados (como analistas, cientistas e engenheiros) e até os utilizadores empresariais podem encontrar informações sobre os dados disponíveis. Responde a questões críticas tais como:

  • De que dados e gestão de dados dispomos?
  • De onde vêm estes dados?
  • O que significa este dado?
  • A quem pertencem estes dados?
  • Como e por quem são utilizados estes dados?
  • Estes dados e a gestão dos mesmos são fiáveis e atuais?

Ao fornecer estas respostas, um catálogo de dados permite aos utilizadores localizar de forma eficiente os dados relevantes para as suas tarefas, compreender a sua linhagem e qualidade e, em última análise, potenciá-los de forma mais eficaz para a tomada de decisões, a análise de dados e os processos operacionais.

Estabelece uma ligação entre os recursos de dados e as pessoas que precisam de os utilizar. Isto também é útil no âmbito dos esforços do data lakehouse e do data storage.

Catálogo de Dados vs Dicionário de Dados

Embora os termos "catálogo de dados" e "dicionário de dados" sejam, por vezes, utilizados indiferentemente, servem a finalidades distintas, embora relacionadas.

O dicionário de governança de dados é um recurso técnico a ser acessado. Fornece uma descrição detalhada, ao nível do esquema, dos elementos de dados, concentrando-se nos aspetos estruturais de uma base de dados ou de um conjunto de dados. Em geral, um dicionário de dados inclui:

  • Nomes das tabelas e descrições: O que cada tabela representa.
  • Nomes de colunas e tipos de dados: O nome de cada campo e o tipo de dados que contém (por exemplo, texto, número inteiro, data).
  • Restrições: Regras aplicadas aos dados, tais como chaves primárias, chaves externas e permissão de valores null.
  • Relações: A forma como diferentes tabelas ou dados se relacionam entre si.
  • Definições de base: Descrições do que cada campo representa.

Um catálogo de dados, por outro lado, oferece uma perspetiva mais ampla e mais orientada para as empresas. Embora muitas vezes incorpore informações encontradas nos dicionários de gestão de dados, vai muito mais longe ao adicionar metadados contextuais mais ricos e funcionalidades. Os principais fatores de diferenciação de um catálogo de dados são:

  • Alargamento: Pode abranger várias fontes de dados para além de uma única base de dados, incluindo lagos de dados, repositórios de dados, ferramentas de BI e até mesmo folhas de cálculo.
  • Metadados ricos: Além dos metadados técnicos, inclui metadados da empresa (por exemplo, definições da empresa, propriedade, políticas de utilização, resultados da qualidade dos dados), metadados operacionais (por exemplo, programas de atualização, informações de tarefas ETL) e metadados sociais (por exemplo, classificações dos utilizadores, comentários, anotações).
  • Pesquisa e deteção: As capacidades de procura permitem que os utilizadores encontrem recursos de dados através de palavras-chave, termos comerciais ou explorando relações e linhagens.
  • Linhagem de governança dos dados: Visualizações que mostram a origem, transformações e dependências dos recursos de dados.
  • Colaboração: Ferramentas para os utilizadores partilharem conhecimentos, fazerem perguntas e contribuírem para a compreensão de dados.
  • Apoio à governança: Ajuda a aplicar as políticas de governança de dados, fornecendo clareza sobre a governança e propriedade de dados, sensibilidade e utilização adequada.

Um dicionário de dados é um componente que pode alimentar um catálogo de dados. O catálogo de dados funciona como um portal mais abrangente e intuitivo para descobrir, compreender e confiar em todos os recursos de dados da empresa, e não apenas nas suas definições técnicas.

Principais funcionalidades

O acesso a um catálogo de dados moderno distingue-se por um conjunto de poderosas funcionalidades concebidas para ajudar as organizações a gerir e a retirar valor dos seus recursos de dados. Entre as principais capacidades incluem-se:

Metadados e Linhagem

No centro de um catálogo de dados está a sua capacidade de consolidar e gerir metadados. Não se trata apenas de metadados técnicos, como tipos de dados e esquemas; também inclui metadados empresariais (por exemplo, definições, termos comerciais, propriedade, classificações de sensibilidade) e metadados operacionais (por exemplo, frequências de atualização, estados de tarefas ETL).
 

Fundamentalmente, os catálogos de dados fornecem uma linhagem de dados, que traça visualmente o percurso dos dados desde a sua origem através de várias transformações até ao seu consumo. Desta forma, os utilizadores compreendem a proveniência dos dados, avaliam o impacto das alterações e resolvem problemas através da forma como os dados são criados e modificados ao longo do tempo.

Pesquisa e Deteção

Os catálogos de gestão de dados oferecem funcionalidades de pesquisa e de descoberta robustas, tornando mais fácil para os utilizadores encontrarem os dados de que precisam. Muitas vezes, isto inclui um potente motor de busca que suporta pesquisas por palavra-chave, à semelhança do que se faz numa determinada pesquisa na web.
 

As funcionalidades avançadas a que pode aceder podem incluir pesquisa facetada (filtragem por categorias como origem de dados, proprietário ou etiquetas), consultas de linguagem natural e recomendações baseadas no comportamento do utilizador ou na popularidade dos dados.
 

O objetivo é capacitar os utilizadores, desde cientistas de dados a analistas de negócios, para que localizem de forma independente conjuntos de dados pertinentes e de confiança, sem terem de contar com o conhecimento institucional ou o apoio informático.

Administração e colaboração

Os catálogos de dados desempenham um papel vital no apoio a iniciativas de governança de dados. Fornecem uma plataforma para documentar e aplicar políticas de governação de dados, atribuir a propriedade e administração dos dados e controlar a qualidade dos dados.
 

Ao tornar as informações de governança transparentes e acessíveis, os catálogos ajudam a garantir a conformidade com regulamentos e normas internas. Além disso, fomentam a colaboração entre os utilizadores da gestão de dados.
 

Funcionalidades como etiquetagem, anotações, comentários, classificações e wikis permitem que os utilizadores partilhem os seus conhecimentos, façam perguntas e construam uma compreensão coletiva dos recursos de dados, quebrem silos e melhoram a literacia global em matéria de governança de dados na organização.

Benefícios e casos de uso

A implementação de um catálogo de dados oferece vantagens significativas às empresas, simplificando a forma como interagem e gerem os seus dados. Estas vantagens traduzem-se em melhorias tangíveis em vários aspetos do negócio.

Acessibilidade

Uma das vantagens mais imediatas de um catálogo de gestão de dados é a melhoria da acessibilidade dos dados. Ao fornecer um inventário centralizado e pesquisável, os catálogos de dados permitem aos utilizadores de todas as capacidades técnicas encontrar facilmente os dados de que precisam. Esta capacidade de self-service reduz drasticamente o tempo que os cientistas, os analistas e os utilizadores empresariais passam a procurar conjuntos de dados relevantes, tentando compreender o seu significado ou verificar a sua fiabilidade.

Esta nova acessibilidade traduz-se diretamente num aumento de produtividade:

  • Redução do tempo para a compreensão: Os analistas podem passar mais tempo a analisar os dados e menos tempo a procurá-los, conduzindo a informações mais rápidas e a uma tomada de decisões.
  • Democratização dos dados: Os utilizadores profissionais podem encontrar e compreender com confiança a governança dos dados pertinentes para o seu domínio sem necessitarem de conhecimentos técnicos aprofundados ou de uma dependência constante das TI.
  • Colaboração melhorada Quando todos têm acesso à mesma compreensão dos recursos de dados, a colaboração em projetos orientados por dados torna-se mais eficiente e eficaz.
  • Integração de novos membros de equipa: Os novos funcionários podem acelerar o seu tempo de trabalho usando o catálogo para compreender o panorama dos dados da organização.
  • Redundância reduzida: Ao tornar os recursos de dados existentes detetáveis, os catálogos ajudam a evitar a duplicação de dados ou esforços analíticos.

Conformidade e gestão de dados

Os catálogos de dados desempenham um papel fundamental no reforço dos esforços de conformidade e na melhoria das práticas globais de gestão de dados. Numa era de regulamentações crescentes em matéria de privacidade de dados (como o RGPD, a CCPA, o HIPAA), é essencial compreender quais os dados que possui, onde estes se encontram, quem tem acesso aos mesmos e como estão a ser utilizados. Veja como os catálogos de dados contribuem:

  • Melhor governança dos dados: Os catálogos fornecem uma plataforma para documentar e aplicar políticas de governação de dados, atribuir a propriedade e seguir a gestão de dados. Tornam a governação tangível e operacional.
     
  • Conformidade regulatória: Ao catalogar dados sensíveis e a sua utilização, as empresas poderão demonstrar mais facilmente a conformidade com as regulamentações de proteção e privacidade de gestão de dados. As funcionalidades tais como os dados de marcação para PII (informações de identificação pessoal) são cruciais.
     
  • Redução dos riscos: A compreensão da linhagem de dados e do impacto ajuda a avaliar os riscos associados a alterações de dados ou a possíveis violações. Também ajuda a identificar e gerir dados obsoletos, obsoletos ou triviais (ROT).
     
  • Melhoria da qualidade dos dados: Os catálogos podem integrar-se com ferramentas de qualidade de dados ou permitir que os utilizadores avaliem e comentem a qualidade da governança de dados, oferecendo transparência e promovendo uma cultura de melhoria da qualidade dos dados.

Implementação e ferramentas

Adotar uma iniciativa de catálogo de dados e um processo de gestão podem parecer intimidantes, mas uma abordagem faseada pode conduzir ao sucesso. Deixamos os passos essenciais para dar os primeiros passos:

Definir objetivos claros e o âmbito de aplicação

Que problemas específicos pretende resolver com um catálogo de dados? (por exemplo, melhorar a descoberta de dados para analistas, apoiar a conformidade, melhorar a governança de dados). Comece com um âmbito administrável. Quais os domínios ou origens de dados mais sensíveis? Concentre-se nos casos de uso mais importantes em vez de tentar catalogar tudo de uma só vez.

Identifique os principais intervenientes e forme uma equipa

Envolva representantes de vários grupos de utilizadores e de gestão: proprietários de dados, responsáveis pela governança de dados, engenheiros de dados, analistas de dados, cientistas de dados e utilizadores empresariais. Estabeleça papéis e responsabilidades para preencher, manter e governar o catálogo. Patrocínio executivo seguro para defender a iniciativa.

Avaliar O Seu Cenário De Metadados Existente

Identificar a localização atual dos metadados. Isto pode acontecer em bases de dados, folhas de cálculo, ferramentas de modelação de dados, scripts ETL ou até mesmo conhecimento tribal dentro das equipas. Em seguida:

  • Compreender a qualidade e integralidade dos metadados existentes para identificar falhas.
  • Avalie as ferramentas com base nos seus objetivos definidos, âmbito, infraestrutura existente e orçamento.
  • Desenvolva uma estratégia para preencher o catálogo.
  • Estabeleça processos para manter os metadados atualizados. Um catálogo obsoleto rapidamente perde o seu valor.

Em seguida, utilize um projeto-piloto que vise um grupo de utilizadores ou um domínio de dados específico na sua organização, recolha os seus comentários e efetue a iteração na organização. Comunicar as vantagens do catálogo de dados e dar formação para incentivar a adoção.

Tipos De Ferramentas E Exemplos

O mercado oferece uma gama variada de ferramentas de organização de dados, cada uma com os seus pontos fortes e a sua atenção. Geralmente podem ser categorizados da seguinte forma:

  • Catálogos de dados autónomos/especializados: Estas ferramentas são concebidas especificamente para a catalogação e descoberta de dados. Muitas vezes oferecem funcionalidades avançadas de gestão de metadados, visualização de linhagens, pesquisa e colaboração, e são concebidos para permitir a ligação a uma vasta gama de fontes de dados no ambiente de dados de uma organização. Entre as principais características incluem-se frequentemente a descoberta de metadados avançados baseados em IA, a classificação e a identificação automatizadas, fluxos de trabalho sólidos em matéria de governança de dados e ferramentas robustas de colaboração.
     
  • Plataformas de dados com catálogos integrados: Muitas plataformas de dados modernas (tais como plataformas de lagos de dados, soluções de armazéns de dados ou pacotes abrangentes de gestão de dados) incluem capacidades de catálogo de dados incorporadas. Estas plataformas estão tipicamente bem integradas no seu ecossistema específico, oferecendo funcionalidades como a integração sem falhas com os outros serviços da plataforma (por exemplo, a ingestão de dados, o processamento, BI), uma experiência de utilizador unificada e a otimização para os motores de armazenamento e processamento de dados da plataforma. No entanto, em comparação com ferramentas especializadas, podem oferecer uma conectividade ou funcionalidades autónomas menos extensas.
     
  • Catálogos de dados open source: Estas soluções são impulsionadas pela comunidade, oferecendo uma opção flexível e muitas vezes económica. Podem ser altamente personalizáveis, mas poderão necessitar de mais conhecimentos técnicos para implementar, configurar e manter. Os seus pontos fortes incluem a extensibilidade através de API e plugins, a neutralidade do fornecedor e um forte apoio da comunidade, tornando-os adequados a organizações com sólidas equipas técnicas internas.

Normalmente, os catálogos nativos de fornecedores cloud são utilizados através de uma abordagem perfeitamente integrada com os respetivos ecossistemas de cloud, simplificando a catalogação de ativos de dados armazenados nesse ambiente de cloud específico. Entre as funcionalidades mais comuns incluem-se uma profunda integração com outros serviços cloud (armazenamento, bases de dados, análise de dados), modelos de preços "pay-as-you-go" e uma escalabilidade gerida pelo fornecedor cloud.

OVHcloud e Data Catalog

Tire partido de toda a potência dos dados na sua organização graças ao pacote de soluções de dados da OVHcloud. Desde a recolha inicial até à análise profunda e ao armazenamento robusto, oferecemos as ferramentas para transformar os dados da sua organização no seu bem mais valioso. Descubra como os nossos serviços especializados podem impulsionar o seu percurso através de dados:

Ícone da Public Cloud

Analytics

Os nossos serviços de cloud analytics integrados e poderosos permitem-lhe recolher, processar e visualizar facilmente os seus dados, transformando as informações brutas em informações práticas. Quer pretenda compreender o comportamento do cliente, otimizar as operações ou impulsionar a inovação.

Ícone da Public Cloud

Data Platform

Otimize os seus fluxos de trabalho com o OVHcloud Data Platform. Esta solução completa, de nível empresarial, simplifica todo o ciclo de vida dos dados, desde a ingestão e armazenamento até ao processamento e análise.

Ícone da Public Cloud

Data Catalog

Descubra, compreenda e confie nos seus dados com o nosso serviço Data Platform Data Catalog da OVHcloud. A nossa plataforma intuitiva disponibiliza um repositório centralizado de metadados, facilitando a localização, o inventário e a gestão dos recursos de dados.

Ícone da Public Cloud

Bases de dados

Impulsione as suas aplicações com as bases de dados da OVHcloud. Oferecemos uma vasta gama de soluções de bases de dados cloud totalmente geridas, incluindo opções de armazenamento relacionais, NoSQL e de objetos, concebidas para responder às suas necessidades específicas de desempenho, escalabilidade e disponibilidade.