Einführung des Data Product Portal: Ein Open-Source-Tool zur Skalierung Ihrer Datenprodukte

29.06.2024

Kristof Martens

In der sich schnell entwickelnden Welt der Daten stellen Unternehmen fest, dass der Schlüssel zum Erfolg beim Skalieren ihrer Daten

Initiativen bestehen darin, sich nicht auf ein einzelnes Datenteam zu verlassen. Stattdessen möchten sie Self-Service-Funktionen bereitstellen, die es jeder Domäne oder Abteilung ermöglichen, ihre eigenen Datenprodukte in ihrem eigenen Tempo und mit ihren eigenen Budgets zu erstellen.

Die Umsetzung dieser Vision kann jedoch sehr herausfordernd sein, insbesondere wenn man alle Aspekte der Datenverwaltung, Datenplattformen und Datenkataloge zusammen betrachtet. Es kann sehr schnell chaotisch werden, da es schwierig ist, einen leicht verständlichen konsistenten Blick auf all diese Dimensionen und Technologien zu bieten.

Heute freuen wir uns sehr, das Data Product Portal anzukündigen – ein Open-Source-Tool, das Organisationen dabei hilft, Datenprodukte in großem Maßstab zu erstellen und zu verwalten. Es ist intuitiv, flexibel und darauf ausgerichtet, das Management von Datenprodukten einfach und effektiv zu gestalten.

Portal conveyor data


Welches Problem löst es?

Stellen Sie sich vor, Sie bauen eine Datenpipeline. Sie nehmen einige Eingabedaten, verarbeiten sie mit Python, dbt oder einem anderen Tool und generieren Ausgaben für andere zur Nutzung. Dieses Szenario gilt, ob Sie Snowflake, AWS, Databricks, BigQuery, Microsoft Fabric oder Starburst verwenden.

Typical data pipeline

In großen Organisationen haben Sie typischerweise mehrere Abteilungen oder Domänen, und Sie können nicht einfach standardmäßig alle Daten zwischen allen Abteilungen teilen, aus rechtlichen, Compliance-, regulatorischen oder Vertraulichkeitsgründen. Dies bedeutet, dass Abteilungen oder Domänen die Kontrolle darüber behalten müssen, wie und warum ihre Daten von anderen verwendet werden.

Scaling data pipelines

In dem Moment, in dem Sie beginnen, Daten zwischen mehreren Abteilungen oder Domänen zu teilen, werden Sie sofort mit den folgenden Fragen konfrontiert:

Wer hat Zugriff auf welche Daten, wann können sie sie nutzen und aus welchem Grund verwenden sie sie?

Wenn Sie mit Daten arbeiten, möchten Sie wissen, wo Sie auf die Daten und die Werkzeuge zugreifen können, um Ihre Datenpipelines zu erstellen.

Um diese Fragen zu beantworten, starten Unternehmen Initiativen zur Datenverwaltung, bei denen sie für jeden Benutzer Richtlinien erstellen, um den Zugriff auf Daten in Tools wie Ranger, AWS IAM, Snowflake oder jedem anderen Tool zu verwalten. Wenn Menschen an mehreren Anwendungsfällen arbeiten, sammeln sich all diese Richtlinien zusammen. Diese „Spaghetti“ aus Berechtigungen führt zu sehr breiten Zugriffsrechten für eine große Gruppe von Menschen. Nach einer Weile werden Sie in der Situation enden, die Sie im ersten Moment vermeiden wollten, in der:

Jeder Zugang zu allen Daten erhält und Sie nicht mehr wissen, warum und wie Ihre Daten verwendet werden.

Datenprodukte als Governance-Modell

Es gibt viele verschiedene Definitionen darüber, was ein Datenprodukt ist, und jede Organisation oder Person, die mit Daten arbeitet, hat ihre eigene Meinung dazu, aber wir fanden die folgende Definition als nützlich und ziemlich universell für viele Organisationsstrukturen.

Definition of data product


Wir schlagen vor, ein Datenprodukt zu definieren als: eine Initiative mit einem klaren Ziel, die von einer Abteilung oder Domäne des Unternehmens betrieben wird und aus der Kombination besteht von:

  1. Eingabedaten: Zugriff auf Datensätze, die durch die Kombination anderer Datenprodukte erstellt wurden.

  2. Ausgabedaten: Lese-/Schreibzugriff auf Ausgabedaten, die in einen Datensatz kombiniert werden können, der mit anderen Datenprodukten geteilt werden kann. Diese Daten werden an bestimmten Orten (z. B. Datenbanken oder Buckets) gespeichert.

  3. Private Daten: Ein sicherer Ort zur Speicherung privater/interner Daten zur lokalen Verarbeitung ohne die Absicht, sie zu teilen.

  4. Tools und Logik: Allen Code und Ausgaben, die Ihre Transformationen, Zeitpläne und Konfigurationen von Werkzeugen beschreiben, die erforderlich sind, um Ihre Datenpipeline von anderen Datenprodukten getrennt zu erstellen, darauf zuzugreifen und auszuführen.

  5. Teamrollen: Definierte Rollen von Teammitgliedern, die über spezifische Berechtigungen verfügen, um mit dem Datenprodukt zu interagieren (z. B. Produktverantwortlicher, Dateningenieur, Geschäftsanalyst).

    Es ist wichtig zu beachten, dass Personen an mehreren Datenprodukten arbeiten können, sich jedoch entscheiden müssen, an welchem Datenprodukt sie arbeiten. Sie erhalten nur Zugriff auf den Bereich, der sich auf die Werkzeuge und Daten für dieses Datenprodukt bezieht.

    In dieser Definition sind Datenprodukte nicht nur Datenwerte, die die Ausgabe zum Teilen mit anderen darstellen, sondern auch die Werkzeuge, Artefakte und Rollen von Personen, die mit diesem Datenprodukt interagieren.

    Wenn mehrere Datenprodukte beginnen, miteinander zu interagieren, wird Ihre Datenproduktlinie folgendermaßen aussehen:


    How different data products are interacting


Die Hauptvorteile dieses Ansatzes sind:

  • Klare Datennutzung: Sie wissen immer, wer Ihre Daten verwendet und warum.

  • Vereinfachtes Zugriffsmanagement: Einfacher zu handhaben bei Zugriffsanfragen und Datenwiderrufen.

  • Natürliche Datenherkunft: Verstehen, wie Ihre Daten von einem Datenprodukt zum anderen fließen.

Die Annahme des Datenprodukt-Governance-Modells ist sehr mächtig, um Dateninitiativen über Abteilungen hinweg zu skalieren, während dennoch Kontrolle und Self-Service-Funktionen beibehalten werden. Dieses Governance-Modell ist jedoch nur dann nützlich, wenn Sie auch etwas haben, das diese Prinzipien verwaltet und anwendet.

Einführung des Data Product Portal

Das Data Product Portal ist ein praktisches Tool, das Ihnen hilft, Datenprodukte in großem Maßstab aufzubauen. Es ist sowohl nützlich für Personen, die mit Daten arbeiten, als auch für Personen, die die Kontrolle darüber haben möchten, wie ihre Daten verwendet werden.

Es wurde entwickelt, um die Erstellung und Verwaltung von Datenprodukten in großem Maßstab zu vereinfachen. Es ist vorteilhaft und einfach zu bedienen für sowohl Datenfachleute als auch für diejenigen, die die Nutzung von Daten und Datenverwaltung überwachen.

Data product model


Hier kommt das Data Product Portal ins Spiel. Es hilft Ihnen, diese Konzepte in eine praktische Umsetzung zu übersetzen, die dieses Modell konsistent über Werkzeuge und Technologien hinweg verfolgt.

  1. Geführte Einrichtung: Schritt-für-Schritt-Hilfe mit den richtigen Stakeholdern zur Erstellung von Datenprodukten, Beantragen von Zugriff, Hinzufügen von Benutzern und Registrieren neuer Daten zum Teilen mit anderen Datenprodukten.

  2. Technologische Übersetzung: Wandelt hochrangige Konzepte in spezifische Konfigurationseinstellungen für Plattformen wie AWS, Azure, Databricks, Snowflake und andere um, um sicherzustellen, dass jedes Datenprodukt korrekt getrennt ist und sich nicht gegenseitig beeinträchtigt.

  3. Benutzerfreundliche Oberfläche: Macht es Geschäftsanwendern und Personen, die mit Daten arbeiten, leicht, die Datenlandschaft zu verstehen und zu navigieren.

  4. Self-Service: Ermöglicht Abteilungen und Teams, neue Dateninitiativen problemlos zu starten, ohne von einem zentralen Team abhängig zu sein.

  5. Umfassende Übersicht: Kombiniert Datenkataloge, Datenplattformen und Aspekte der Datenverwaltung zu einer einzigen 360-Grad-Übersicht über alle laufenden Dateninitiativen.

So starten Sie

Das Data Product Portal ist als Open-Source-Projekt auf Github verfügbar. Der Einstieg ist so einfach wie das Ausführen von docker compose up und das Aufrufen von localhost:8080

Wir laden Sie ein, uns zu besuchen und uns einen Stern zu geben, wenn Ihnen gefällt, was Sie sehen. Ihre Beiträge sind unschätzbar für uns — sei es durch Feedback, Vorschläge oder direkte Mitwirkung an der Entwicklung.

Für Kubernetes-Bereitstellungen sehen Sie sich unser Helm-Chart hier an.

Wenn Sie Fragen haben oder Ihre Gedanken teilen möchten? Treten Sie unserer Community auf Slack bei und verbinden Sie sich direkt mit uns. Wir können es kaum erwarten, von Ihnen zu hören!

Wir freuen uns, das Data Product Portal als Open-Source-Initiative in Ihre Hände zu bringen. Zögern Sie nicht, uns Ihre Meinung dazu mitzuteilen!

Screenshots

Data product list viewData product detail


Datadet detail


Das endgültige Dankeschön geht an http://medium.com/@jonnydaenen für die großartigen Grafiken!

Latest

Portable by design: Rethinking data platforms in the age of digital sovereignty
Portable by design: Rethinking data platforms in the age of digital sovereignty
Portable by design: Rethinking data platforms in the age of digital sovereignty

Portable by design: Rethinking data platforms in the age of digital sovereignty

Build a portable, EU-compliant data platform and avoid vendor lock-in—discover our cloud-neutral stack in this deep-dive blog.

Cloud-Unabhängigkeit: Test eines europäischen Cloud-Anbieters gegen die Giganten
Cloud-Unabhängigkeit: Test eines europäischen Cloud-Anbieters gegen die Giganten
Cloud-Unabhängigkeit: Test eines europäischen Cloud-Anbieters gegen die Giganten

Cloud-Unabhängigkeit: Test eines europäischen Cloud-Anbieters gegen die Giganten

Kann ein europäischer Cloud-Anbieter wie Ionos AWS oder Azure ersetzen? Wir testen es – und finden überraschende Vorteile in Bezug auf Kosten, Kontrolle und Unabhängigkeit.

Hören Sie auf, schlechte Qualitätsdaten zu laden
Hören Sie auf, schlechte Qualitätsdaten zu laden
Hören Sie auf, schlechte Qualitätsdaten zu laden

Vermeide schlechte Daten von Anfang an

Das Erfassen aller Daten ohne Qualitätsprüfungen führt zu wiederkehrenden Problemen. Priorisieren Sie die Datenqualität von Anfang an, um nachgelagerte Probleme zu vermeiden.

Hinterlasse deine E-Mail-Adresse, um den Dataminded-Newsletter zu abonnieren.

Hinterlasse deine E-Mail-Adresse, um den Dataminded-Newsletter zu abonnieren.

Hinterlasse deine E-Mail-Adresse, um den Dataminded-Newsletter zu abonnieren.

Belgien

Vismarkt 17, 3000 Leuven - HQ
Borsbeeksebrug 34, 2600 Antwerpen


USt-IdNr. DE.0667.976.246

Deutschland

Spaces Kennedydamm,
Kaiserswerther Strasse 135, 40474 Düsseldorf, Deutschland


© 2025 Dataminded. Alle Rechte vorbehalten.


Vismarkt 17, 3000 Leuven - HQ
Borsbeeksebrug 34, 2600 Antwerpen

USt-IdNr. DE.0667.976.246

Deutschland

Spaces Kennedydamm, Kaiserswerther Strasse 135, 40474 Düsseldorf, Deutschland

© 2025 Dataminded. Alle Rechte vorbehalten.


Vismarkt 17, 3000 Leuven - HQ
Borsbeeksebrug 34, 2600 Antwerpen

USt-IdNr. DE.0667.976.246

Deutschland

Spaces Kennedydamm, Kaiserswerther Strasse 135, 40474 Düsseldorf, Deutschland

© 2025 Dataminded. Alle Rechte vorbehalten.