
Cloud-Datenplattform
Imecs Weg zur Umsetzung von über 30 Anwendungsfällen pro Jahr mit einer modernen und zukunftssicheren Datenplattform
Geschäftlicher Kontext
Imec - ein international führendes Forschungszentrum für Nano- und Digitaltechnologie und die Heimat von mehr als 5500 Menschen - beschloss 2019, ihre analytischen Arbeitslasten von On-Premises nach Microsoft Azure zu verlagern.
Die anfängliche Lösung von Imec unterstützt einen einzigen Anwendungsfall, der die analytische Berichterstattung über das Wartungsmanagement von Maschinen und Geräten in ihrem Reinraum abdeckt: "Welche Maschinen stehen zur Wartung an?", "Wie lange dauert es im Durchschnitt, um (MTTR) zu reparieren?", "Wie oft sind Maschinen außer Betrieb?" usw.
Angesichts von imec’s Ambitionen, ein breites Spektrum an Daten- & Analytikfähigkeiten unternehmensweit auszurollen, war das Unternehmen besorgt über die Skalierbarkeit und Nachhaltigkeit seines traditionell SAS-basierten Data Warehouses. Imec wählte Dataminded, um eine Studie durchzuführen, um eine moderne und zukunftssichere Datenplattform zu entwerfen und sich darauf vorzubereiten, von einer Handvoll von Datenprodukten zu strukturellen Einblicken und Entscheidungen aus Daten über alle Geschäftsbereiche hinweg zu skalieren.
Umfang & Ziele
Imec bat Dataminded, Verbesserungsmöglichkeiten in Bezug auf ihre Arbeitsweise zu identifizieren und Leitprinzipien, Architekturgestaltung und Best Practices für den Aufbau und Betrieb von Datenprodukten zu entwickeln.
Dataminded mobilisierte einen erfahrenen Architekten und zwei Dateningenieure für einen Zeitraum von drei Monaten. Unser Ausgangspunkt war die Bewertung der notebook-basierten Plattform und der Arbeitsweise von imec. Dataminded arbeitete daran, das Verständnis über die Vor- und Nachteile der aktuellen Situation zu erhöhen und erforderliche Fähigkeiten einer modernen und robusten Datenplattform aufzuzeigen. Dazu gehörten ausgefeiltere Planung und Orchestrierung, containerbasierte Datenverarbeitung, angemessene Sicherheit und Datenzugriffskontrolle, Protokollierung & Überwachung und mehr. Auch die Kostenkontrolle im großen Maßstab war für Imec ein sehr wichtiger Antrieb.
Als Leitprinzip führte Dataminded die Prinzipien des Datenmeshes ein: Organisieren Sie Anwendungsfälle pro Domain (HR, Marketing, Vertrieb, F&E…), behandeln Sie Daten als ein Produkt, das von einer solchen Domain besessen wird, nutzen Sie eine Self-Service-Plattform für die Entwicklung und föderierte Governance von Datenprodukten.
Imec war sich der Probleme sehr wohl bewusst, suchte jedoch nach Anleitung, um mögliche Lösungen zu finden. Dies haben wir erreicht, indem wir die Dinge so praktisch und greifbar wie möglich über praktische, technische Demos gestaltet haben. Wir haben die Vorteile der zentralen Governance, Entwicklung und der Unit-Testing-Vorlagen in PySpark und DBT, Infrastrukturautomatisierung mit Terraform, Continuous Integration und Continuous Deployment (CICD), Beobachtbarkeit und mehr vorgestellt.
Wichtigste Ergebnisse
Basierend auf den Studienergebnissen beschloss Imec, seine Anstrengungen zu beschleunigen und mit der Installation der neu gestalteten Plattform fortzufahren und den Wert durch die Bereitstellung seines Hauptanwendungsfalls zu beweisen. Zu diesem Zeitpunkt entwickelten wir auch einen Fahrplan mit priorisierten Anwendungsfällen für die Umsetzung. Seitdem arbeiten Imec und Dataminded zusammen, um Datenanwendungsfälle zu entwickeln und die Datenplattform im Einklang mit den aufkommenden Geschäftsbedürfnissen auszubauen.
Als Eckpfeiler von Imec’s Datenplattform wählte Imec Conveyor, ein Produkt von Dataminded, um Datenwissenschaftler und Ingenieure durch alle Phasen des Datenlebenszyklus zu führen, von der Experimentierung bis zur Industrialisierung und den Betrieb. Es dauerte einen Monat, um die Datenplattform betriebsbereit zu machen.
Neben Conveyor basiert die Datenplattform von Imec auf einigen grundlegenden Azure-Diensten wie Azure Data Lake Storage (ADLS), Azure Key Vault und Azure App Service. Der Data Lake wird durch Azure's rollenbasierte Zugriffskontrolle (RBAC) gesichert und integriert sich nahtlos mit den Identitätsmanagementfähigkeiten von Conveyor. Zusätzlich zu Conveyors Spark-Laufzeit für Streaming- und Batch-Verarbeitung wird Azure Synapse für Ad-hoc-Abfragen des Data Lakes verwendet und stellt die Daten für PowerBI zur Berichterstattung und Visualisierung zur Verfügung. Langfristige Dienste und Webanwendungen werden über den Azure App Service bereitgestellt und über die Azure API Management-Plattform verfügbar gemacht.
Innerhalb eines Jahres nach der Installation von Conveyor und der Entwicklung der zentralen Datenplattform sind mehr als 30 Anwendungsfälle aus 10 verschiedenen Domänen umgesetzt worden, die von der Ideenfindung bis zur Produktion reichen. Ein neuer Anwendungsfall zu starten, ist so einfach wie das Hinzufügen einer einzigen Zeile zu einer Konfigurationsdatei; unser Infrastructure-as-Code (IaC)-Tool erstellt dann automatisch die erforderliche Infrastruktur, um den Anwendungsfall zu unterstützen, sodass sich die Entwickler hauptsächlich auf das Schreiben von Geschäftlogik konzentrieren können. Bereitstellungen sind automatisiert und können über das Versionskontrollsystem ausgelöst werden.
In Zukunft setzen Dataminded und Imec ihre Zusammenarbeit fort, um ein Selbstbedienungstool zur Datenabfrage für die F&E-Abteilung von Imec zu entwickeln. Mit der Zeit wird dieses Tool über 1000 Ingenieuren ermöglichen, effizient auf Daten aus ihren Experimenten zuzugreifen und diese zu erkunden, wodurch sie mehr Zeit haben, sich auf Imecs Kerngeschäft zu konzentrieren.
Auswirkungen
Dataminded hat erfolgreich mehr als 70 Datenprodukte für Imec im Zusammenhang mit ihrem Waferproduktionsprozess, F&E-Aktivitäten, Marketingaktivitäten und mehr bereitgestellt. Die Kosten wurden erheblich gesenkt.
Wir haben mehrere neue Ingenieure auf der Plattform integriert und Selbstbedienungsfähigkeiten für schnelles Experimentieren und Bereitstellen neuer Projekte ermöglicht.
Die wachsende Anzahl von Datenprodukten und Synergien, die durch die Kombination von Erkenntnissen aus verschiedenen Domänen verfügbar gemacht werden, bietet Imec Möglichkeiten zur Erweiterung ihrer Analysebemühungen. Diese rasche Verbreitung von Datenprodukten bringt unweigerlich eine eigene Reihe von Herausforderungen mit sich, insbesondere in Bezug auf Governance: Wer hat Zugang zu Daten? Wer kontrolliert den Zugang?
Wie werden neue Datenprodukte für den Rest der Organisation verfügbar gemacht und auffindbar? Der nächste Schritt in unserer Zusammenarbeit konzentriert sich daher auf den Aspekt der Daten-Governance der Datenplattform, indem wir z.B. Produkte über einen Datenkatalog bereitstellen und die Datenzugangsgovernance so weit wie möglich automatisieren, während die Kontrolle fest in den Händen der Dateninhaber bleibt.