custom background image

Data Processing Engine


Data Processing Engine

OVHcloud Data Platform – usługa integracji i transformacji danych, która automatyzuje procesy ETL/ELT w środowisku produkcyjnym.

Automatyzuj przetwarzanie i transformację danych

manageable OVHcloud

Przetwarzanie

Stosuj przetwarzanie wsadowe – wyodrębniaj, przekształcaj i przesyłaj dane z różnych źródeł do ich docelowych lokalizacji.

quick OVHcloud

Automatyzacja

Twórz przepływy pracy za pomocą interfejsu low-code i automatyzuj zadania.

flexible OVHcloud

Rozwój

Koduj i uruchamiaj dowolny niestandardowy skrypt Python lub PySpark i korzystaj z kompletnego zestawu SDK z wieloma konektorami.

reversible OVHcloud

Praca z kodem

Twórz, uruchamiaj i udostępniaj kod w środowiskach Jupyter Notebook.

Demo

Przyspiesz Twoje projekty Data & Analytics

Chcesz wdrażać, zarządzać i skalować swoje projekty i aplikacje Data bardzo szybko i prosto? Dzięki zintegrowanej, bezpiecznej platformie do pracy zespołowej analitycy biznesowi, inżynierowie danych oraz front-end developerzy mogą zwiększyć swoją produktywność. Data Platform od OVHcloud, oparta na technologiach open source, takich jak Apache Spark, Iceberg czy Trino, zapewnia dostęp, w ramach tego samego środowiska, do usług integracji danych, przechowywania i odzyskiwania danych.

Vimeo umieszcza w odtwarzanych przez Ciebie filmach znaczniki, które umożliwiają późniejsze wyświetlanie reklam targetowanych w oparciu o Twoją historię przeglądania.

Aby obejrzeć film, musisz zaakceptować politykę „Udostępnianie plików cookie na platformach stron trzecich” w naszym Centrum Prywatności. Zgodę możesz wycofać w dowolnym momencie.

Aby uzyskać więcej informacji, sprawdź politykę cookies Vimeo oraz politykę cookies OVHcloud.

Zachowaj kontrolę nad danymi

Twórz i personalizuj zadania przetwarzania

Połącz się z dowolnym źródłem danych. Obszerny katalog predefiniowanych szablonów zadań umożliwia tworzenie operacji ekstrakcji, ładowania, agregacji i czyszczenia danych oraz aktualizacji metadanych. Koduj i uruchamiaj dowolny niestandardowy skrypt Python lub PySpark i korzystaj z kompletnego zestawu SDK z ponad 40 konektorami. Jeśli dysponujesz już skryptami do przetwarzania danych w języku Python, zaimportuj je, aby je scentralizować i zorkiestrować w Data Platform.

Zarządzać pakietami i zależnościami za pomocą spersonalizowanych działań, w tym własnych bibliotek, które możesz ponownie wykorzystać w różnych projektach. Data Processing Engine jest dostarczany z dwoma systemami kontroli wersji, co zapewnia, że obciążenia krytyczne w środowisku produkcyjnym nigdy nie będą narażone na zakłócenia. Kontrola wersji Data Platform pozwala na śledzenie skalowalności wersji i synchronizację z dowolnym zewnętrznym repozytorium Git.

dpe 1 tasks img
dpe 3 workflows img

Definiuj i orkiestruj przepływy pracy

W prosty sposób definiuj, ustalaj kolejność i planuj zadania oraz zarządzanie zasobami. Skaluj je, używając workerów, które w razie potrzeby możesz kontrolować. Intuicyjny interfejs z funkcją „przeciągnij i upuść” pozwala na wizualizację i uruchamianie projektów w chmurze. Nie musisz przy tym posiadać zaawansowanych kompetencji technicznych ani doświadczenia w zarządzaniu infrastrukturą cloud. Zautomatyzuj wykonywanie zadań, w tym zadań CRON.

Uruchamiaj i skaluj procesy przetwarzania danych w chmurze

Uruchamiaj operacje i pełne przepływy pracy jako zadania za pomocą jednego wywołania API. Data Processing Engine integruje dwa silniki: silnik Pandas (w języku Python 3) zoptymalizowany pod kątem mniejszych zadań przetwarzania danych oraz silnik Spark (w PySpark) do intensywnych obciążeń.

Skaluj zadania w poziomie i w pionie i przyspieszaj ich realizację dzięki zasobom obliczeniowym OVHcloud. Wykonuj zadania równoległe, korzystając z narzędzi do segmentacji. Używaj opcji perymetrycznych i włączaj lub wykluczaj punkty danych, które znajdują się poza określonym obszarem.

Apache Spark™ wraz z logo jest znakiem towarowym firmy Apache Software Foundation. OVH SAS i jej spółki zależne nie mają powiązań z Apache Software Foundation ani nie są przez nią wspierane.

Apache Spark
notebooks_workflow

Uruchamiaj analizy danych bezpośrednio w notebookach Jupyter

Notebooki zintegrowane z OVHcloud Data Platform zapewniają gotowe środowisko Jupyter z wstępnie zainstalowanymi bibliotekami data science, które przyspieszają analizę danych.

Umożliwiają wstępne przetwarzanie z użyciem metod statystycznych i tworzenie interaktywnych wizualizacji w środowisku współdzielonym, przy zachowaniu pełnej integracji z pozostałą częścią projektu. Dzięki natywnej integracji z Lakehouse Manager i SDK możesz łatwo odczytywać i zapisywać dane, a następnie uruchamiać je w Data Processing Engine, co pozwala płynnie przejść od etapu analizy do wdrożenia operacyjnego.
 

Monitoruj wykonywanie i wydajność zadań

Przeglądaj szczegółowe raporty dotyczące ukończonych zadań, w tym wykorzystania CPU i RAM workerów w określonym czasie, oraz powiązane logi. Testuj i weryfikuj zadania, optymalizuj zużycie zasobów, używając punktów kontrolnych w przepływach pracy.

Korzystaj z Control Center Data Platform i alertów, aby otrzymywać powiadomienia o ukończeniu lub niepowodzeniu zadań, czasie ich trwania i wykorzystaniu RAM. Kontroluj precyzyjnie dostępy za pomocą narzędzia IAM (Identity Access Manager) zawartego w Data Platform.

dpe 4 jobexecutions img