Alle auf die Daten-Tanzfläche: eine Geschichte des Vertrauens

23.01.2024

•

Wannes Rosiers

Wer bin ich, um zu argumentieren? Tatsächlich hatte ich das Privileg, einige Unternehmen in diese ganz besondere Ambition zu führen.

Wenn diese Erzählung jedoch mit dem Anspruch ergänzt wird, "Daten für alle verfügbar zu machen", wage ich es, herauszufordern. Was oft verfügbar gemacht wird, sind vorgefertigte Einblicke, die die Ära der Einsichten-Demokratisierung markieren, jedoch nicht ganz die der Daten-Demokratisierung.

Keine Sorge: Die Ära der Daten-Demokratisierung wird bald kommen. Die jüngsten Entwicklungen konzentrieren sich darauf, Individuen zu befähigen, mit Daten zu interagieren. Es wird daran gearbeitet, die technischen Barrieren zu senken, von der Entstehung von Self-Service-BI-Tools über den Wechsel zu SQL mit DBT bis hin zur Einführung von No-Code/Low-Code-ETL-Tools. Der neueste Hype um KI/LLM könnte es ermöglichen, die meisten technischen Fähigkeiten zu eliminieren. Wenn jedoch Daten wirklich für alle verfügbar werden, ergibt sich eine neue Herausforderung: Wie kann man diese weit verbreiteten Dateninteraktionen effektiv steuern?

Was wir steuern müssen

Ich glaube, es ist ziemlich klar, warum der breitere Zugang zu Rohdaten gesteuert werden muss. Ich spreche nicht von Rohdaten als der grundlegenden Schicht Ihrer analytischen Datenlandschaft. Wenn ich von Rohdaten spreche, meine ich das Asset, das zuvor zur Erstellung dieser vorverpackten Einblicke verwendet wurde. Selbst wenn dieses Asset tatsächlich ein Datenprodukt ist. Aber lassen Sie uns einen Moment innehalten, bevor wir eintauchen, wie man steuert, und besprechen, was tatsächlich gesteuert werden muss.

Die Governance-Anforderungen in diesem Kontext beinhalten die Sicherstellung, dass Daten für einen rechtmäßigen Zweck von jemandem verwendet werden, der berechtigt ist, diesen Zweck zu erfüllen. Ganz abgesehen von rechtlichen und compliance-relevanten Überlegungen ist auch der ethische Aspekt entscheidend, den Unternehmen berücksichtigen müssen. Um dies zu erreichen, müssen Daten nicht nur verfügbar, sondern auch auffindbar gemacht werden. Und wenn Menschen sie nutzen, müssen Sie den verschiedenen Nutzern versichern, dass sie vertrauenswürdig bleiben.

Für jene, die mit einer typischen Datensprache vertraut sind: Sie müssen einen zweckgebundenen Zugriffsschutz ermöglichen, Sie müssen ein Datenkatalog erstellen und Sie sollten die Datenbeobachtbarkeit annehmen. Heute möchte ich auf vertrauenswürdige Daten und ihre Beziehung zur Datenbeobachtbarkeit eingehen.

Wann verdienen Daten Vertrauen?

Die Suche nach einer Definition wird uns zum Konzept zuverlässiger Daten führen. Daten sollten vollständig, konsistent und genau sein, den tatsächlichen Zustand ohne Lücken widerspiegeln und über die Zeit konstant bleiben. Aber wie wissen und messen wir das? Und sind zuverlässige Daten gleichbedeutend mit vertrauenswürdigen Daten? Vertrauenswürdige Daten schaffen Vertrauen bei ihren Nutzern und ermutigen sie, sich auf sie zu verlassen, um Einsichten zu extrahieren und Entscheidungen zu treffen. Vertrauen und Zuversicht sind weiche Fähigkeiten und glücklicherweise so. Es gibt andere Möglichkeiten, eine Vertrauensbeziehung aufzubauen, als die Genauigkeit zu messen, was nahezu unmöglich ist.

Den Herausgeber kennen: Wenn Sie etwas untersuchen, überprüfen Sie Ihre Quellen. Ein Artikel mit einem Autor ist vertrauenswürdiger; ein Portraitfoto fügt eine menschliche Note hinzu, und Sie könnten sogar geneigt sein, dem Artikel mehr zu vertrauen. (Hinweis: Dieses psychologische Verhalten könnte sich mit den neuesten Möglichkeiten der generativen KI ändern.)
Dem Herausgeber vertrauen: Selbst wenn Sie den Autor kennen, möchten Sie die Gewissheit, dass er über das Fachwissen verfügt. Die meisten Fußballtrainer sind aus einem bestimmten Grund Ex-Spieler: Es ist einfacher, ihnen zu vertrauen, weil sie dort waren, sie wissen, wie es funktioniert.
Dem Zusteller vertrauen: Haben Sie jemals einen Umschlag erhalten, der mit Klebeband versiegelt war? Ich schätze, Ihr erster Gedanke war: „Warum wurde meine Post geöffnet?“ Wenn Sie dem Zustellprozess nicht vertrauen, werden Sie dem Inhalt auch nicht vertrauen: Er könnte von jemandem manipuliert worden sein, den Sie nicht kennen!

Das ist nicht so anders als die Suche nach vollständigen, konsistenten und genauen Daten. Sie möchten den Datenbesitzer kennen, überzeugt sein, dass er ein genaues Datenprodukt erstellen kann, das den Geschäftsprozess widerspiegelt, den er gut kennt. Der Business-Experte ist hier dem ehemaligen professionellen Fußballspieler ähnlich. Und Sie benötigen Gewissheit über den Zustellprozess: Ihr Herausgeber sendet ständig den vollständigen Datensatz, aber sind Sie sicher, dass Sie alles erhalten?

Ich habe mehrere Artikel über föderiertes Daten-Management geschrieben, meist im Kontext von Data Mesh. Dies steht im Einklang mit dem Wissen und Vertrauen in den Herausgeber. Aber wie stellen Sie Vertrauen in den Zusteller her?

Der Tanz der Datenlieferung

Im Kontext von Daten läuft es darauf hinaus, zu vertrauen, dass Ihr Geschäftsexperte sein Datenprodukt selbst erstellt hat — hallo wieder Daten-Demokratisierung — und dass es vor Ihrer Interaktion unverändert bleibt. Dieser Prozess muss wiederholbar sein.

Anstatt die intelligentesten Datenqualitätsmaßnahmen zu entwickeln, kann man dies teilweise abdecken, indem man Zugang und Änderungen überwacht: Wann wurden die Daten zuletzt aktualisiert und von wem. Im Kontext wiederholbarer Prozesse für Datenprodukte ist dieses „wem“ wahrscheinlich eine Datenpipeline. Das übersetzt sich also in: Welche Version nutzen wir, und wer hat auf diese Version aktualisiert? Es ist ziemlich ähnlich zu überprüfen, ob Ihr Business-Experte das Datenprodukt selbst erstellt hat.

Verstehen Sie mich nicht falsch; ich beziehe mich implizit auf einen Latenzcheck als Maß für die Datenqualität und übersehe Vollständigkeitsprüfungen und viele andere. Es gibt definitiv einen Mehrwert in diesen, doch als Ausgangspunkt würde ich es vorziehen, Veränderungen im Prozess zu überwachen. Die Einhaltung des Prozesses ist viel einfacher zu definieren als hervorragende Datenqualitätsmaßnahmen zu benennen.

Die wichtigsten Dinge, die zunächst überwacht werden müssen, sind daher:

Wann wurde die Pipeline ausgeführt?
Welche Version der Pipeline wurde ausgeführt?
Wer hat diese Version erstellt?

Gehen wir es von oben nach unten durch. Jedes Orchestrierungstool umfasst die Überwachung, wann eine Pipeline ausgeführt wurde, in seinen Kernfunktionen. Denken Sie an Airflow, Dagster, Prefect — sie alle bieten einen Überblick über Pipeline-Ausführungen. Die Versionierung ist jedoch noch keine Kernfunktion. Was halten Sie zum Beispiel von dieser Antwort vom Airflow-Core-Committer-Team? Sie zeigt, dass das Team es wertvoll erachtet, innerhalb eines Orchestrators zu arbeiten. Darüber hinaus fehlen den Orchestratoren ein übergreifendes Konzept von DAGs; entweder sind Sie darauf beschränkt, die gesamte Pipeline in einem einzigen DAG zu erhalten, oder Sie verpassen eine vollständige Versionsübersicht.

Im Kern des Vertrauens im Datenlieferprozess liegt also die Fähigkeit der Business-Experten, kompetent ihre eigenen Datenprodukte zu erstellen, und ein stärkerer Fokus auf die Beobachtbarkeit der Datenpipeline statt auf die Datenbeobachtbarkeit.

Fazit

Die Demokratisierung von Insights hat das Fundament gelegt, aber jetzt klopft die wahre Daten-Demokratisierung an die Türen. Während sich die Tore der Daten langsam öffnen, entsteht eine kritische Sorge — wie steuern wir diese neu gewonnene Daten-Demokratie effektiv? Die Antwort liegt nicht nur im Ermöglichen des Zugangs, sondern auch im Fördern des Vertrauens. Vertrauen sowohl in den Ursprung als auch in den Lieferprozess. Es ist ein Tanz mit den Daten, bei dem es ebenso wichtig ist, die Tanzpartner — Herausgeber und Pipelines — zu kennen wie den Tanz selbst.

Anstatt sich auf die Datenbeobachtbarkeit zu konzentrieren, könnte ein guter Ausgangspunkt sein, die Pipeline-Beobachtbarkeit einzuführen. Lassen Sie uns die Kernprinzipien im Auge behalten: Wann wurde die Pipeline ausgeführt, welche Version war ihr Markenzeichen und wer hat diese Version erstellt? So können Sie die Augen schließen und von Ihren Tanzpartnern geführt werden. Wir sind noch nicht ganz dort, aber bald werden diejenigen, denen das Vertrauen auf der Tanzfläche fehlt, den schönsten Data-Tango vollenden.