Co to jest Data Catalog?


Katalog danych ułatwia użytkownikom odkrywanie istotnych zbiorów danych, poznawanie ich znaczenia i pochodzenia oraz ostatecznie zaufanie danym w odniesieniu do ich potrzeb analitycznych lub operacyjnych.

Big Data OVHcloud

Definicja i cel

Katalog danych to zorganizowana inwentaryzacja zasobów danych w ramach organizacji. Można go porównać do biblioteki katalogów, ale nie do danych. Zazwyczaj nie przechowuje danych, lecz je zbiera, zarządza i dostarcza informacje o nich (nazywane metadanymi). Metadane zapewniają kontekst, dzięki czemu dane są wykrywalne, zrozumiałe i bezpieczne.

Katalog danych służy jako centralne, przeszukiwalne repozytorium, w którym specjaliści w dziedzinie zarządzania danymi (np. analitycy, naukowcy, inżynierowie), a nawet użytkownicy biznesowi, mogą znaleźć informacje o dostępnych danych. Odpowiada na pytania, takie jak:

  • Jakie dane i zarządzanie nimi posiadamy?
  • Skąd pochodzą te dane?
  • Co oznaczają te dane?
  • Kto jest właścicielem tych danych?
  • Kto i w jaki sposób wykorzystuje te dane?
  • Czy zarządzanie danymi jest niezawodne i aktualne?

Dzięki tym odpowiedziom katalog danych umożliwia użytkownikom skuteczne lokalizowanie danych niezbędnych do wykonywania ich zadań, zrozumienie ich pochodzenia i jakości, a ostatecznie bardziej efektywne wykorzystanie ich do podejmowania decyzji, analizy danych i procesów operacyjnych.

Niweluje lukę między zasobami danych a osobami, które ich potrzebują. Ułatwia to również pracę w jeziorze danych i hurtowni danych.

Katalog danych vs Słownik danych

Terminy "katalog danych" i "słownik danych" są czasami używane zamiennie, ale służą różnym, choć pokrewnym, celom.

Słownik zarządzania danymi jest przede wszystkim zasobem technicznym umożliwiającym dostęp. Zapewnia szczegółowy opis elementów danych na poziomie schematu, koncentrując się na aspektach strukturalnych bazy danych lub zbioru danych. Typowy słownik danych zawiera:

  • Nazwy i opisy tabel: Każda tabela przedstawia.
  • Nazwy kolumn i typy danych: Nazwa każdego pola i typ danych, które ono przechowuje (np. tekst, liczba całkowita, data).
  • Ograniczenia: Reguły zastosowane do danych, takie jak klucze główne, klucze obce i niedopuszczalność.
  • Relacje: W jaki sposób różne tabele lub elementy danych są ze sobą powiązane.
  • Podstawowe definicje: Opisy poszczególnych pól.

Z kolei katalog danych oferuje szerszą, bardziej zorientowaną na biznes perspektywę. Chociaż często wykorzystuje informacje znalezione w słownikach do zarządzania danymi, idzie znacznie dalej, dodając bogatsze metadane kontekstowe i funkcje. Główne wyróżniki katalogu danych to:

  • Szerszy zakres: Obejmuje wiele źródeł danych poza jedną bazą danych, w tym jeziora danych, hurtownie danych, narzędzia BI, a nawet arkusze kalkulacyjne.
  • Bogate metadane: Oprócz metadanych technicznych obejmują one metadane biznesowe (np. definicje biznesowe, własność, zasady użytkowania, wyniki dotyczące jakości danych), metadane operacyjne (np. harmonogramy aktualizacji, informacje o zadaniu ETL) oraz metadane społecznościowe (np. oceny użytkowników, komentarze, adnotacje).
  • Wyszukiwanie i odnajdowanie: Zaawansowane funkcje wyszukiwania umożliwiają użytkownikom znajdowanie zasobów danych za pomocą słów kluczowych, terminów biznesowych lub poprzez badanie relacji i linii pokrewieństwa.
  • Zarządzanie danymi: Wizualizacje przedstawiające pochodzenie, transformacje i zależności zasobów danych.
  • Funkcje pracy zespołowej: Narzędzia umożliwiające dzielenie się wiedzą, zadawanie pytań i pomaganie w zrozumieniu danych.
  • Wsparcie w zakresie zarządzania: Pomaga egzekwować politykę zarządzania danymi, zapewniając jasność co do zarządzania danymi i ich własności, wrażliwości i odpowiedniego użytkowania.

Słownik danych to komponent, który może być wykorzystywany w katalogu danych. Katalog danych działa jako bardziej kompletny i przyjazny dla użytkownika portal, który umożliwia odkrycie, zrozumienie i zaufanie do wszystkich zasobów danych przedsiębiorstwa, nie tylko ich definicji technicznych.

Kluczowe funkcje

Dostęp do nowoczesnego katalogu danych charakteryzuje się zestawem wydajnych funkcji, które ułatwiają organizacjom zarządzanie danymi i korzystanie z ich wartości. Kluczowe funkcje:

Metadane i linie

U podstaw katalogu danych leży jego zdolność do konsolidacji i zarządzania metadanymi. Nie są to tylko metadane techniczne, takie jak rodzaje danych i schematy; obejmują one również metadane biznesowe (np. definicje, terminy biznesowe, własność, klasyfikacje wrażliwości) oraz metadane operacyjne (np. częstotliwość odświeżania, stany zadań ETL).
 

Co istotne, katalogi danych dostarczają danych linearingu, który wizualnie śledzi drogę danych od ich źródła poprzez różne transformacje do ich wykorzystania. Pomaga to użytkownikom zrozumieć pochodzenie danych, ocenić wpływ zmian i rozwiązywać problemy, obserwując, jak dane są tworzone i modyfikowane w czasie.

Wyszukiwanie i odnajdowanie

Katalogi zarządzania danymi zapewniają solidne funkcje wyszukiwania i odnajdowania, dzięki czemu użytkownicy mogą łatwo znaleźć potrzebne dane. Często jest to potężna wyszukiwarka obsługująca wyszukiwanie słów kluczowych, podobna do tej, którą można wyszukać w Internecie.
 

Zaawansowane funkcje, do których możesz uzyskać dostęp, obejmują wyszukiwanie fasetowe (filtrowanie według kategorii, takich jak źródło danych, właściciel lub tagi), zapytanie w języku naturalnym oraz rekomendacje w oparciu o zachowanie użytkownika lub popularność danych.
 

Celem jest umożliwienie użytkownikom, od analityków danych po analityków biznesowych, niezależnego lokalizowania istotnych, zaufanych zbiorów danych bez konieczności korzystania z wiedzy instytucjonalnej lub wsparcia informatycznego.

Zarządzanie i współpraca

Katalogi danych odgrywają kluczową rolę we wspieraniu inicjatyw w zakresie zarządzania danymi. Stanowią one platformę do dokumentowania i egzekwowania polityki zarządzania danymi, przypisywania własności i zarządzania nimi oraz monitorowania jakości danych.
 

Dzięki temu, że informacje dotyczące zarządzania są przejrzyste i dostępne, katalogi pomagają zapewnić zgodność z przepisami i standardami wewnętrznymi. Co więcej, sprzyjają współpracy między użytkownikami zarządzania danymi.
 

Funkcje, takie jak tagowanie, adnotacje, komentarze, oceny i wiki pozwalają użytkownikom dzielić się wiedzą, zadawać pytania i budować zbiorcze zrozumienie zasobów danych, burzyć silosy i poprawiać ogólną wiedzę na temat zarządzania danymi w organizacji.

Korzyści i przykłady zastosowania

Uruchomienie katalogu danych ma ogromne zalety dla firm - usprawnia sposób, w jaki wchodzą one w interakcję z danymi i zarządzają nimi. Korzyści te przekładają się na wymierne usprawnienia w różnych aspektach działalności.

Dostępność

Jedną z najbardziej bezpośrednich korzyści wynikających z katalogu zarządzania danymi jest zwiększona dostępność danych. Dzięki scentralizowanemu katalogowi danych z możliwością wyszukiwania, katalogi te pozwalają użytkownikom na łatwe znalezienie danych, których potrzebują. Ta zdolność do samoobsługi znacznie skraca czas, jaki specjaliści zajmujący się danymi, analitycy i użytkownicy biznesowi poświęcają na poszukiwania odpowiednich zbiorów danych, próby zrozumienia ich znaczenia lub weryfikację ich wiarygodności.

Ta nowa dostępność bezpośrednio przekłada się na większą wydajność:

  • Krótszy czas dostępu do szczegółowych informacji: Analitycy mogą poświęcać więcej czasu na analizę danych i mniej czasu na ich wyszukiwanie, co prowadzi do szybszego wglądu i podejmowania decyzji.
  • Demokratyzacja danych: Użytkownicy biznesowi mogą bez obaw znaleźć i zrozumieć sposób zarządzania danymi powiązanymi z ich domeną, bez konieczności posiadania zaawansowanej wiedzy technicznej czy korzystania z informatyki.
  • Bardziej efektywna współpraca Gdy wszyscy mają dostęp do tego samego zrozumienia zasobów danych, współpraca nad projektami opartymi na danych staje się bardziej wydajna i skuteczna.
  • Wdrożenie nowych członków zespołu: Dzięki katalogowi nowi pracownicy mogą znacznie przyspieszyć pracę, aby lepiej zrozumieć sytuację związaną z danymi w organizacji.
  • Zmniejszona redundancja: Dzięki wykrywaniu istniejących zasobów danych katalogi pomagają zapobiegać powielaniu danych lub działań analitycznych.

Zgodność i zarządzanie danymi

Katalogi danych mają kluczowe znaczenie dla wzmocnienia działań na rzecz zapewnienia zgodności i poprawy ogólnych praktyk zarządzania danymi. W erze coraz bardziej restrykcyjnych przepisów dotyczących ochrony danych (RODO, CCPA, HIPAA), zrozumienie, jakie dane posiadasz, gdzie się znajdują, kto ma do nich dostęp i jak są one wykorzystywane ma kluczowe znaczenie. Oto jak katalogi danych przyczyniają się do rozwoju:

  • Zwiększone zarządzanie danymi: Katalogi stanowią platformę do dokumentowania i egzekwowania polityki zarządzania danymi, przypisywania własności i śledzenia zarządzania danymi. Sprawiają, że zarządzanie jest namacalne i operacyjne.
     
  • Zgodność z przepisami: Dzięki skatalogowaniu wrażliwych danych i ich wykorzystania organizacje mogą łatwiej wykazać zgodność z przepisami dotyczącymi zarządzania danymi i ochrony prywatności. Funkcje takie jak dane tagowania dla PII (Personal Identisible Information) są kluczowe.
     
  • Zmniejszenie ryzyka: Zrozumienie pochodzenia i wpływu danych pomaga w ocenie ryzyka związanego ze zmianami danych lub potencjalnymi naruszeniami. Ułatwia również identyfikację przestarzałych, przestarzałych lub trywialnych (ROT) danych i zarządzanie nimi.
     
  • Wyższa jakość danych: Katalogi mogą być zintegrowane z narzędziami ochrony jakości danych lub też umożliwiać użytkownikom ocenianie i komentowanie jakości zarządzania danymi, zapewniając przejrzystość i wspierając kulturę podnoszenia jakości danych.

Implementacja i Narzędzia

Uruchomienie inicjatywy katalogu danych i procesu zarządzania może wydawać się zniechęcające, ale podejście etapowe może prowadzić do sukcesu. Oto kluczowe kroki, które należy podjąć:

Jasne cele i zakres

Jakie problemy chcesz rozwiązać dzięki katalogowi danych? (na przykład, poprawa wyszukiwania danych dla analityków, wsparcie zgodności, poprawa zarządzania danymi). Zacznij od dającego się zarządzać zakresu. Które domeny lub źródła danych są najbardziej krytyczne? W pierwszym kroku skup się na przykładach zastosowań o wysokiej wartości, zamiast katalogować wszystko jednocześnie.

Identyfikacja kluczowych interesariuszy i tworzenie zespołu

Reprezentują oni różne grupy użytkowników i zarządzania: właściciele danych, data governance stewards, data engineers, analitycy danych, data scientists oraz użytkownicy biznesowi. Określenie ról i obowiązków związanych z wypełnianiem, konserwacją i zarządzaniem katalogiem. Zapewnienie sponsorowania inicjatywy przez kadrę kierowniczą.

Oceń Istniejący Krajobraz Metadanych

Określ, gdzie obecnie znajdują się metadane. Mogą to być bazy danych, arkusze kalkulacyjne, narzędzia do modelowania danych, skrypty ETL, a nawet wiedza plemienna w zespole. Następnie:

  • Zrozumienie jakości i kompletności istniejących metadanych w celu zidentyfikowania luk.
  • Oceń narzędzia na podstawie zdefiniowanych celów, zakresu, istniejącej infrastruktury i budżetu.
  • Opracowanie strategii wypełniania katalogu.
  • Ustanowienie procesów służących do aktualizowania metadanych. Przestarzały katalog szybko traci swoją wartość.

Następnie skorzystaj z projektu pilotażowego skierowanego do określonej grupy użytkowników lub domeny danych w Twojej organizacji, gromadź opinie i iteruj w całej organizacji. Informuj o zaletach katalogu danych i zapewnij szkolenia, które zachęcą do jego adopcji.

Typy Narzędzi I Przykłady

Rynek oferuje różnorodne narzędzia do organizacji danych, z których każde ma swoje mocne strony i jest ukierunkowane na inne aspekty. Można je podzielić na następujące kategorie:

  • Katalogi danych autonomiczne / specjalistyczne: Narzędzia te są doskonałe do katalogowania i odkrywania danych. Często oferują one głębokie możliwości w zakresie zarządzania metadanymi, wizualizacji lineage, wyszukiwania i współpracy. Zostały zaprojektowane tak, aby łączyć się z szerokim wachlarzem źródeł danych w całym organizacyjnym krajobrazie danych. Kluczowe cechy tego rozwiązania często obejmują zaawansowane wykrywanie metadanych oparte na sztucznej inteligencji, automatyczne znakowanie i klasyfikacja, niezawodne procesy zarządzania danymi oraz wydajne narzędzia do współpracy.
     
  • Platformy danych z wbudowanymi katalogami: Wiele nowoczesnych platform danych - takich jak platformy jezior danych, rozwiązania magazynów danych lub kompleksowe pakiety zarządzania danymi - zawiera wbudowane funkcje katalogowe danych. Są one zazwyczaj dobrze zintegrowane z ich konkretnym ekosystemem, oferując funkcje, takie jak bezproblemowa integracja z innymi usługami platformy (np. gromadzenie danych, przetwarzanie, BI), ujednolicone doświadczenie użytkownika oraz optymalizacja silników przechowywania i przetwarzania danych platformy. Jednak w porównaniu ze specjalistycznymi narzędziami mogą one oferować mniej rozbudowane możliwości połączenia lub autonomiczne funkcje.
     
  • Katalogi danych open source: Rozwiązania te są dostosowane do potrzeb społeczności i zapewniają elastyczną oraz często efektywną kosztowo opcję. Można je dowolnie skonfigurować, ale mogą wymagać więcej wiedzy technicznej w zakresie wdrażania, konfiguracji i utrzymania. Ich mocne strony to wszechstronność za pomocą API i wtyczek, neutralność wobec dostawców oraz silne wsparcie społeczności. Dzięki temu są one odpowiednie dla organizacji z solidnymi zespołami technicznymi.

Katalogi dostawców usług cloud native są zazwyczaj wykorzystywane przy użyciu ściśle zintegrowanego podejścia z ich odpowiednimi ekosystemami chmurowymi, co ułatwia katalogowanie zasobów danych przechowywanych w tym konkretnym środowisku chmurowym. Typowe funkcje obejmują głęboką integrację z innymi usługami w chmurze (przechowywanie, bazy danych, analityka), modele cenowe pay as you go oraz skalowalność zarządzaną przez dostawcę rozwiązań chmurowych.

OVHcloud i Data Catalog

Wykorzystaj pełną moc danych w Twojej firmie dzięki rozwiązaniom data center od OVHcloud. Od wstępnej kolekcji po głęboką analizę i solidne przechowywanie, zapewniamy narzędzia do przekształcenia danych w Twojej firmie w najcenniejszy zasób. Dowiedz się, w jaki sposób nasze specjalistyczne usługi mogą wspomóc podróż opartą na danych:

Public Cloud

Analityka

Nasze wydajne, zintegrowane usługi analizy chmury umożliwiają bezproblemowe gromadzenie, przetwarzanie i wizualizację danych, przekształcając nieprzetworzone informacje w informacje, które można wykorzystać. Zrozumieć zachowania klientów, zoptymalizować operacje lub stymulować innowacje.

Public Cloud

Data Platform

Usprawnij przepływ danych dzięki Data Platform od OVHcloud. To kompleksowe rozwiązanie klasy enterprise upraszcza cały cykl życia danych, od ich gromadzenia i przechowywania po przetwarzanie i analizę.

Public Cloud

Data Catalog

Katalog danych OVHcloud Data Platform umożliwia poznawanie, zrozumienie i budowanie zaufania do Twoich danych. Nasza intuicyjna platforma zapewnia scentralizowane repozytorium metadanych, dzięki czemu łatwo je znaleźć, zinwentaryzować i zarządzać nimi.

Public Cloud

Databases

Hostuj aplikacje, korzystając z baz danych OVHcloud. Oferujemy szeroką gamę w pełni zarządzanych rozwiązań baz danych w chmurze, w tym relacyjne, NoSQL i object storage, zaprojektowane z myślą o Twoich konkretnych potrzebach w zakresie wydajności, skalowalności i dostępności.