Mit der Datenherkunft können Sie nachvollziehen, wie sich Daten durch Ihre Systeme bewegen. Sie können sich die Quelle, die Ziele und die Transformationen ansehen, die auf ein Daten-Asset angewendet werden.
Sie können Informationen zur Datenherkunft in der Google Cloud Console für Dataplex Universal Catalog-, BigQuery- und Vertex AI-Assets ansehen oder mit der Data Lineage API abrufen.
Warum Sie die Datenherkunft benötigen
Bei großen Datasets müssen Daten für bestimmte Projekte häufig in verschiedene Formate transformiert werden, z. B. in Textdateien, Tabellen, Berichte, Dashboards und Modelle.
Ein Onlineshop könnte beispielsweise eine Datenpipeline mit folgendem Ablauf haben:
Ein Dataflow-Job liest Rohkaufereignisse aus einem Pub/Sub-Thema, Produktdetails aus Cloud Storage-Dateien und Kundeninformationen aus einer BigQuery-Tabelle. Im Job werden diese Informationen zusammengeführt und eine
purchases
-Tabelle in BigQuery erstellt.In nachfolgenden BigQuery-Jobs wird die Tabelle
purchases
transformiert, um kleinere, aggregierte Tabellen wieregion
oderbrand
zu erstellen und neue Spalten wietotal_profit
zu berechnen.Analysten verwenden diese Tabellen, um Berichte und Dashboards in Looker zu erstellen.
Dieses häufige Szenario kann mehrere Herausforderungen mit sich bringen:
Datenempfängern fehlt eine Selfservice-Methode, um zu überprüfen, ob Daten aus einer autoritativen Quelle stammen.
Data Engineers haben Schwierigkeiten, die Ursache von Problemen zu ermitteln, da sie nicht alle Datentransformationen zuverlässig nachvollziehen können. Wenn ein Analyst beispielsweise einen Fehler in einer
total_profit
-Spalte findet, ist es schwierig, den Fehler auf seinen Ursprung zurückzuführen.Data Engineers und Analysten können die potenziellen Auswirkungen des Änderns oder Löschens von Tabellen nicht vollständig einschätzen. Bevor sie beispielsweise eine
product_id
-Spalte einstellen, müssen sie alle abhängigen Downstream-Spalten identifizieren, um zu vermeiden, dass Berichte nicht mehr funktionieren.Data Governors haben keinen Einblick in die Verwendung sensibler Daten in der gesamten Organisation. Dies erschwert die Einhaltung von behördlichen Anforderungen.
Die Datenherkunft löst diese Probleme, indem sie eine klare, visuelle Darstellung des Wegs Ihrer Daten bietet. Mit der Datenherkunft haben Sie folgende Möglichkeiten:
Mithilfe von Herkunftsgraphen nachvollziehen, wie Daten erfasst und transformiert werden.
Fehler in Dateneinträgen und Vorgängen auf ihre Ursachen zurückführen.
Durch die Analyse der Auswirkungen können Sie Änderungen besser verwalten, um Ausfallzeiten oder unerwartete Fehler zu vermeiden, Abhängigkeiten zu verstehen und mit Stakeholdern zusammenzuarbeiten.
Workflow für Datenherkunft
Der Workflow für den Datenursprung umfasst die folgenden Schritte:
Datenquellen und Aufnahme: Die Herkunftsinformationen aus Ihren Datenquellen sind der Ausgangspunkt für den gesamten Prozess. Weitere Informationen finden Sie unter Herkunftsquellen.
Google Cloud Dienste: Wenn die Data Lineage API aktiviert ist, melden unterstützte Dienste wie BigQuery und Dataflow automatisch Herkunftsereignisse, wenn Daten verschoben oder transformiert werden.
Benutzerdefinierte Quellen: Für alle Systeme, die nicht automatisch vonGoogle Cloud -Integrationen unterstützt werden, können Sie die Data Lineage API verwenden, um Abstammungsinformationen manuell aufzuzeichnen. Wir empfehlen, Ereignisse zu importieren, die gemäß dem OpenLineage-Standard formatiert sind.
Lineage-Plattform: Auf dieser zentralen Plattform werden alle Herkunftsdaten aufgenommen, modelliert und gespeichert. Weitere Informationen finden Sie unter Lineage-Informationsmodell und Granularität.
Data Lineage API: Diese API fungiert als einziger Einstiegspunkt für alle eingehenden Informationen zur Herkunft von Daten. Das Tool verwendet ein hierarchisches Datenmodell mit drei Kernkonzepten: Prozess, Lauf und Ereignis.
Verarbeitung und Speicherung: Die Plattform verarbeitet eingehende Daten und speichert sie in zuverlässigen, abfrageoptimierten Datenbanken.
Nutzerfreundlichkeit: Sie können auf zwei Arten mit den gespeicherten Informationen zur Datenherkunft interagieren:
Visuelle Analyse: In der Google Cloud -Konsole ruft ein Frontend-Dienst die Lineage-Daten ab und rendert sie als interaktives Diagramm oder als interaktive Liste. Dies wird für Dataplex Universal Catalog, BigQuery und Vertex AI (für Modelle, Datasets, Feature Store-Ansichten und Featuregruppen) unterstützt. Das ist ideal, um den Weg Ihrer Daten visuell nachzuvollziehen. Weitere Informationen finden Sie unter Lineage-Ansichten in der Google Cloud Console.
Programmatischer Zugriff: Mit einem API-Client können Sie direkt mit der Data Lineage API kommunizieren, um die Verwaltung der Herkunft zu automatisieren. So können Sie Herkunftsinformationen aus benutzerdefinierten Quellen schreiben. Außerdem können Sie die gespeicherten Lineage-Daten lesen und abfragen, um sie in anderen Anwendungen zu verwenden oder benutzerdefinierte Berichte zu erstellen.
Lineage-Quellen
Sie können Informationen zur Datenherkunft in Dataplex Universal Catalog auf folgende Weise einfügen:
- Automatisch von integrierten Google Cloud Diensten
- Manuell über die Data Lineage API für benutzerdefinierte Quellen
- Ereignisse aus OpenLineage importieren
Automatisierte Verfolgung der Datenherkunft
Wenn Sie die Data Lineage API aktivieren, Google Cloud beginnen Systeme, die die Datenherkunft unterstützen, mit der Meldung ihrer Datenbewegungen. Jedes integrierte System kann Herkunftsinformationen für einen anderen Bereich von Datenquellen bereitstellen.
BigQuery
Wenn Sie die Herkunft der Daten in Ihrem BigQuery-Projekt aktivieren, zeichnet Dataplex Universal Catalog automatisch die Herkunftsinformationen für Folgendes auf:
Neue Tabellen, die durch die folgenden BigQuery-Jobs erstellt werden:
- Kopierjobs
- Ladejobs, für die ein Cloud Storage-URI verwendet wird
- Abfragejobs, die die folgende DDL-Anweisung (Data Definition Language) in GoogleSQL verwenden:
Vorhandene Tabellen, wenn Sie die folgenden DML-Anweisungen (Data Manipulation Language) in GoogleSQL verwenden:
SELECT
in Bezug auf einen der aufgeführten Tabellentypen:INSERT SELECT
MERGE
UPDATE
DELETE
BigQuery-Kopier-, Abfrage- und Ladejobs werden als Prozesse dargestellt.
Klicken Sie im Herkunftsdiagramm auf , um die Prozessdetails aufzurufen.
Jeder Prozess enthält die BigQuery-job_id in der Liste attributes für den letzten BigQuery-Job.
Weitere Dienste
Die Datenherkunft unterstützt die Integration mit den folgendenGoogle Cloud -Diensten:
Datenherkunft für benutzerdefinierte Datenquellen
Mit der Data Lineage API können Sie Abstammungsinformationen für jede Datenquelle manuell aufzeichnen, die von den integrierten Systemen nicht unterstützt wird.
Dataplex Universal Catalog kann Herkunftsgraphen für manuell aufgezeichnete Herkunft erstellen, wenn Sie eine fullyQualifiedName
verwenden, die mit den vollständig qualifizierten Namen vorhandener Dataplex Universal Catalog-Einträge übereinstimmt. Wenn Sie den Datenursprung für eine benutzerdefinierte Datenquelle aufzeichnen möchten, müssen Sie zuerst einen benutzerdefinierten Eintrag erstellen.
Jeder Prozess für eine benutzerdefinierte Datenquelle kann in der Attributliste einen sql
-Schlüssel enthalten. Der Wert dieses Schlüssels wird verwendet, um eine Code-Hervorhebung im Detailbereich des Datenherkunftsgraphen zu rendern. Die SQL-Anweisung wird so angezeigt, wie sie angegeben wurde. Sie sind dafür verantwortlich, sensible Informationen herauszufiltern. Beim Schlüsselnamen sql
wird zwischen Groß- und Kleinschreibung unterschieden.
OpenLineage
Wenn Sie OpenLineage bereits verwenden, um Informationen zur Datenherkunft aus anderen Datenquellen zu erfassen, können Sie OpenLineage-Ereignisse in Dataplex Universal Catalog importieren und in der Google Cloud Konsole ansehen. Weitere Informationen finden Sie unter Mit OpenLineage integrieren.
Beschränkungen
Für die Datenherkunft gelten die folgenden Einschränkungen:
Alle Informationen zur Herkunft werden nur 30 Tage lang im System aufbewahrt.
Die Informationen zur Datenherkunft bleiben erhalten, nachdem Sie die zugehörige Datenquelle gelöscht haben. Wenn Sie beispielsweise eine BigQuery-Tabelle löschen, können Sie ihre Herkunft über die API und die Console noch bis zu 30 Tage lang aufrufen.
Einschränkungen der Herkunft auf Spaltenebene
Für den Spaltenursprung gelten die folgenden zusätzlichen Einschränkungen:
Die Herkunft auf Spaltenebene wird nicht für BigQuery-Ladejobs oder für Routinen erfasst.
Die Upstream-Lineage auf Spaltenebene wird für externe Tabellen nicht erfasst.
Die Herkunft auf Spaltenebene wird nicht erfasst,wenn in einem Job mehr als 1.500 Links auf Spaltenebene erstellt werden. In diesen Fällen wird nur der Datenfluss auf Tabellenebene erfasst.
Es gibt keine API zum Erstellen, Lesen, Aktualisieren, Löschen oder Suchen von Herkunft auf Spaltenebene.
Die Unterstützung für partitionierte Tabellen ist eingeschränkt, da Partitionierungsspalten wie
_PARTITIONDATE
und_PARTITIONTIME
im Lineage-Diagramm nicht erkannt werden.Einschränkungen der Konsole:
Die Durchlaufung des Herkunftsgraphen ist auf eine Tiefe von 20 Ebenen und 10.000 Links in jeder Richtung beschränkt.
Die Herkunft auf Spaltenebene wird nur aus der Region abgerufen, in der sich die Stamm-Tabelle befindet. Die regionenübergreifende Herkunft wird in der Diagrammansicht nicht unterstützt.
Preise
Dataplex Universal Catalog verwendet die Premium-Verarbeitungs-SKU, um die Datenherkunft in Rechnung zu stellen. Weitere Informationen finden Sie unter Preise.
Wenn Sie die Gebühren für die Datenherkunft von anderen Gebühren in der Premium-Verarbeitungs-SKU für Dataplex Universal Catalog trennen möchten, verwenden Sie im Cloud Billing-Bericht das Label
goog-dataplex-workload-type
mit dem WertLINEAGE
.Wenn Sie die Data Lineage API
Origin
sourceType
mit einem anderen Wert alsCUSTOM
aufrufen, fallen zusätzliche Kosten an.
Nächste Schritte
Datenherkunft für BigQuery-Tabellenkopien und Abfragejobs nachverfolgen
Informationen zur Verwendung der Datenherkunft mit Google Cloud -Systemen
Weitere Informationen zu Herkunftsansichten in der Google Cloud Console
Administrativen Informationen finden Sie unter Überlegungen zur Herkunft und Audit-Logging zur Datenherkunft.