Jsonnet: Metadatengetriebene Datenpipelines verwalten und ĂĽberblicken
Mit der Konfigurationssprache Jsonnet lassen sich Metadaten menschenlesbar verwalten und fĂĽr den Einsatz in Cloud-Umgebungen transformieren.
- Dr. Stefan Klempnauer
Pipelines sind das Nervensystem moderner Datenplattformen und ermöglichen es, vielfältige Datenquellen anzubinden und zu verarbeiten. Doch mit der zunehmenden Zahl der integrierten Quellen steigt die Komplexität der Orchestrierung erheblich. Statische On-Demand-Datenpipelines treiben die Datenintegration insbesondere in Pilotphasen von Projekten zwar voran, stoßen jedoch schnell an ihre Grenzen: Sie sind in großen Projekten oft weder übersichtlich noch wartbar.
Darüber hinaus beeinflussen unbemerkte Änderungen in den Datenquellen die Stabilität der Pipelines. Metadatengetriebene Datenpipelines und Werkzeuge wie die JSON-basierte Konfigurationssprache Jsonnet versprechen Stabilität und ein minimalistisches Design in Frameworks zur Datenintegration.
- Technische Metadaten eignen sich besonders fĂĽr den Aufbau von Metadatenframeworks zur Prozessautomatisierung mit Datenpipelines.
- Der Zuwachs an Metadaten in einem Projekt erschwert die Verwaltung und erfordert Werkzeuge, die die Daten fĂĽr Menschen lesbar halten und fĂĽr das Verarbeiten ĂĽbersetzen.
- Die JSON-basierte Konfigurationssprache Jsonnet hilft beim Erstellen ĂĽbersichtlicher Frameworks, die sich durch zahlreiche Constraints, automatisch generierte Zielpfade oder Tagging erweitern lassen.
Metadaten sind essenziell für die effektive Verwaltung von Datenpipelines. Man unterscheidet zwischen drei Kategorien: technische, operative und geschäftliche Metadaten. Dieser Artikel konzentriert sich auf technische Metadaten, da diese beim Aufbau eines Metadatenframeworks zur Prozessautomatisierung besonders hilfreich sind. Das zeigt ein Beispiel für ein Metadatenframework in Azure auf Basis von Azure DevOps, Azure Data Factory und Jsonnet. Die vorgestellten Konzepte sind technologieunabhängig und lassen sich mit wenigen Handgriffen in andere Cloud- oder On-Premises-Umgebungen übertragen.
Das war die Leseprobe unseres heise-Plus-Artikels "Jsonnet: Metadatengetriebene Datenpipelines verwalten und überblicken". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.