Blog
Portable by design: Rethinking data platforms in the age of digital sovereignty
Build a portable, EU-compliant data platform and avoid vendor lock-in—discover our cloud-neutral stack in this deep-dive blog.
Cloud-Unabhängigkeit: Test eines europäischen Cloud-Anbieters gegen die Giganten
Kann ein europäischer Cloud-Anbieter wie Ionos AWS oder Azure ersetzen? Wir testen es – und finden überraschende Vorteile in Bezug auf Kosten, Kontrolle und Unabhängigkeit.
Vermeide schlechte Daten von Anfang an
Das Erfassen aller Daten ohne Qualitätsprüfungen führt zu wiederkehrenden Problemen. Priorisieren Sie die Datenqualität von Anfang an, um nachgelagerte Probleme zu vermeiden.
Ein 5-Schritte-Ansatz zur Verbesserung der Datenplattform-Erfahrung
Verbessern Sie die UX der Datenplattform mit einem 5-Schritte-Prozess: Feedback sammeln, Benutzerreisen kartieren, Reibung reduzieren und kontinuierlich durch Iteration verbessern.
What Is Data Product Thinking?
Data Product Thinking treats data as a product, empowering domain teams to own, improve, and scale trusted, user-focused data assets.
Why the ‘Private’ API Gateway of AWS Might Not Be as Secure as You Think
AWS Private API Gateways aren’t always private, misconfigs can expose access. Use resource policies to secure them properly.
Der Leitfaden des Data Engineers zur Optimierung von Kubernetes
Bei Conveyor haben wir über fünf Jahre daran gearbeitet, eine Batch-Datenplattform auf Basis von Kubernetes aufzubauen und zu betreiben.
Integrating MegaLinter to Automate Linting Across Multiple Codebases. A Technical Description.
Automate code quality with MegaLinter, SQLFluff, and custom checks in Azure DevOps CI. Supports multi-language linting and dbt integration.
Sind Ihre AKS-Protokollierungskosten zu hoch? Hier erfahren Sie, wie Sie sie reduzieren können.
Bei Conveyor verwenden wir seit über 3 Jahren Azure Log Analytics, um Protokolle von unseren Kubernetes-Workloads, sowohl von Batch- als auch von langlaufenden Anwendungen, zu speichern.
Source-Aligned Data Products: The Foundation of a Scalable Data Mesh
Source-Aligned Data Products ensure trusted, domain-owned data at the source—vital for scalable, governed Data Mesh success.
The State of Data Work in 2025: Insights From 32 In-Depth Conversations
Insights from 32 data professionals reveal 2025 challenges: balancing AI innovation, governance, quality, cost, collaboration, and literacy.
Monitoring thousands of Spark applications without losing your cool
Monitor Spark apps at scale with CPU efficiency to cut costs. Use Dataflint for insights and track potential monthly savings.
Datenmodellierung in einer Datenproduktwelt
Viele Organisationen stoßen an die Grenzen der Datenlagerung, insbesondere wenn sie in der Größe wachsen.
SAP CDC with Azure Data Factory
Build SAP CDC in Azure Data Factory with SAP views, but high IR costs. Kafka + Confluent offers a cheaper, scalable alternative.
Beyond the Buzzwords: Let’s Talk About the Real Challenges in Data
Cut through data buzzwords join honest chats with data pros to uncover real challenges, knowledge gaps & clever wins.
Von Gutem AI zu Gutem Data Engineering. Oder wie Verantwortungsbewusste AI mit Hoher Datenqualität zusammenwirkt.
Verantwortliche KI hängt von hochwertiger Datenverarbeitung ab, um ethische, faire und transparente KI-Systeme zu gewährleisten.
Ein Einblick in das Leben eines Datenführers
Datenführer stehen unter Druck, den Hype um KI mit der Organisation der Datenlandschaft in Einklang zu bringen. So bleiben sie fokussiert, pragmatisch und strategisch.
Über Medaillon: Wie man Daten für Self-Service-Daten-Teams strukturiert
Seit Jahren verlassen sich Datenplattformen – insbesondere Datenseen und Lakehouses – auf die Medaillonarchitektur.
How we democratized data access with Streamlit and Microsoft-powered automation
Streamlit app + Power Automate = easy, self-serviced data access at scale, no YAML editing needed, just governance that actually works.
Unlocking the new Power of Advanced Analytics
Advanced analytics powered by LLMs and strong data engineering enables smarter predictions, deeper insights, and AI you can trust.
Wie man die Komplexität des modernen Datenstapels bezwingt
Je mehr Menschen in einem Team sind, desto mehr Kommunikationslinien gibt es. Dasselbe gilt für die Werkzeuge in Ihrem Daten-Stack, die Komplexität skaliert schnell.
Das Datenproduktportal integriert sich mit Ihrer bevorzugten Datenplattform.
Vor ein paar Wochen haben wir die Veröffentlichung des Data Product Portals als Open-Source-Repository angekündigt.
Wie man den Druck auf Ihre Daten-Teams verringert
Im August 2016 veröffentlichte BARC die Ergebnisse einer globalen Umfrage zum datengestützten Entscheidungsprozess in Unternehmen.
Microsoft Fabric’s Migration Hurdles: My Experience
Migrating to Microsoft Fabric?My experience shows it’s not ideal for modular platforms yet limited flexibility,IaC gaps & performance issues
Datenprodukt-Portal-Integrationen 2: Helm
Willkommen zur nächsten Folge unserer Serie über die Integrationen des Data Product Portals!
Datenstabilität mit Python: Wie man selbst die kleinsten Änderungen erfasst
Als Data Engineer ist es fast immer die sicherste Option, Daten-Pipelines alle X Minuten auszuführen. So können Sie nachts gut schlafen…
Warum Sie eine Benutzeroberfläche für Ihre Datenplattform erstellen sollten
Moderne Datenplattformen sind komplex. Wenn Sie sich Referenzarchitekturen ansehen, wie die von A16Z unten, enthält sie mehr als 30 Kästen.
Datenprodukt-Portal-Integrationen 1: OIDC
Wie man Open ID Connect mit dem Data Product Portal integriert
Der Stand der Datenprodukte im Jahr 2024
Gartner hat seinen Hype-Zyklus für Datenmanagement 2024 veröffentlicht.
Klare Signale: Verbesserung der Kommunikation innerhalb eines Datenteams
Clear team communication boosts data project success. Focus on root problems, structured discussions, and effective feedback to align better
Entmystifizierung des Geräteflusses
Implementierung des OAuth 2.0 Device Authorization Grant mit AWS Cognito und FastAPI
Einführung des Data Product Portal: Ein Open-Source-Tool zur Skalierung Ihrer Datenprodukte
In der sich schnell entwickelnden Welt der Daten stellen Unternehmen fest, dass der Schlüssel zum Erfolg beim Skalieren ihrer Daten
Kurze Feedbackzyklen auf AWS Lambda
Eine Makefile, die es ermöglicht, schnell zu iterieren
Das fehlende Stück zur Daten-Demokratisierung ist handlungsorientierter als ein Katalog.
Seit den neunziger Jahren, mit dem Aufkommen von Business Intelligence,
Prompt-Engineering für eine bessere SQL-Codegenerierung mit LLMs
Stellen Sie sich vor, Sie sind ein Marketing-Manager, der damit beauftragt ist, Werbestrategien zu optimieren, um verschiedene Kundensegmente effektiv anzusprechen…
Alter der DataFrames 2: Polars Ausgabe
In dieser Veröffentlichung präsentiere ich einige Tricks und Funktionen von Polars.
Quack, Quack, Ka-Ching: Kosten senken, indem man Snowflake von DuckDB abfragt
Wie man Snowflakes Unterstützung für interoperable offene Lakehouse-Technologie — Iceberg — nutzen kann, um Geld zu sparen.
Die Bausteine erfolgreicher Daten-Teams
Basierend auf meiner Erfahrung werde ich die wichtigsten Kriterien für den Aufbau erfolgreicher Daten-Teams näher erläutern.
Abfragen hierarchischer Daten mit Postgres
Hierarchische Daten sind weit verbreitet und einfach zu speichern, aber ihre Abfrage kann herausfordernd sein. Dieser Beitrag wird Sie durch den Prozess…
Sicher Snowflake von VS Code im Browser verwenden
Eine Hauptaktivität unserer Benutzer besteht darin, dbt innerhalb der IDE-Umgebung zu nutzen.
Die Vorteile eines Data-Platform-Teams
Seit Jahren bauen und nutzen Organisationen Datenplattformen, um Wert aus Daten zu schöpfen.
Wie man ein Datenteam organisiert, um den größten Nutzen aus Daten zu ziehen
Um das Offensichtliche zu sagen: Ein Datenteam ist dafür da, dem Unternehmen Mehrwert zu bieten. Aber ist das wirklich so offensichtlich? Haben Unternehmen nicht zu oft ein ...
Warum nicht Ihre eigene Datenplattform erstellen
Eine Zusammenfassung der Diskussion am runden Tisch über die Datenplattform von imec.
Clout* zertifiziert werden
Heiße Meinungen zu meinen Erfahrungen mit Cloud-Zertifizierungen
Sie können einen Supercomputer verwenden, um eine E-Mail zu senden, aber sollten Sie das?
Entdecken Sie die nächste Evolution der Datenverarbeitung mit DuckDB und Polars
Zwei Lifecycle-Richtlinien, die jeder S3-Bucket haben sollte
Abgebrochene Mehrteil-Uploads und abgelaufene Löschmarker: was sind sie und warum Sie sich wegen der schlechten AWS-Standarde darum kümmern müssen.
Wie wir GenAI genutzt haben, um die Regierung zu verstehen
Wir haben einen RAG-Chatbot mit AWS Bedrock und GPT-4 entwickelt, um Fragen zur flämischen Regierung zu beantworten.
My key takeaways after building a data engineering platform
Building a data platform taught me: deleting code is vital, poor design has long-term costs, and dependency updates are never-ending.
Leveraging Pydantic as a validation layer.
Ensuring clean and reliable input is crucial for building robust services.
7 Lessons Learned migrating dbt code from Snowflake to Trino
Snowflake to Trino dbt migration: watch out for type casting, SQL functions, NULL order, and window function quirks.
Growing your data program with a use-case-driven approach
Use-case-driven data programs balance planning & building, enabling fast value, reduced risk, and scalable transformation.
Alle auf die Daten-Tanzfläche: eine Geschichte des Vertrauens
Wer bin ich, um zu argumentieren? Tatsächlich hatte ich das Privileg, einige Unternehmen in diese ganz besondere Ambition zu führen.
Quacking Queries in the Azure Cloud with DuckDB
DuckDB on Azure: fsspec works for now, but native Azure extension is faster—especially with many small files. Full support is on the way.
Wie wir unsere Docker-Bauzeiten um 40% reduziert haben
Dieser Beitrag beschreibt zwei Möglichkeiten, das Erstellen Ihrer Docker-Images zu beschleunigen: Das Caching von Build-Informationen remote und die Verwendung der Link-Option beim Kopieren von Dateien.
Kreuz-DAG-Abhängigkeiten in Apache Airflow: Ein umfassender Leitfaden
Vier Methoden zur effektiven Verwaltung und Skalierung Ihrer Datenworkflow-Abhängigkeiten mit Apache Airflow erkunden.
Daten mit Spark und Iceberg einfügen bzw. aktualisieren
Verwenden Sie die MERGE INTO-Syntax von Spark und Iceberg, um täglich inkrementelle Schnappschüsse einer veränderlichen Quelltabelle effizient zu speichern.