Blog
Why not to build your own data platform
A round-table discussion summary on imec’s approach to their data platform
Securely use Snowflake from VS Code in the browser
A primary activity among our users involves utilizing dbt within the IDE environment.
The benefits of a data platform team
For years, organizations have been building and using data platforms to get value out of data.
Everyone to the data dance floor: a story of trust
Who am I to argue? In fact, I’ve had the privilege of guiding some companies towards this very ambition.
Vermeide schlechte Daten von Anfang an
Das Erfassen aller Daten ohne Qualitätsprüfungen führt zu wiederkehrenden Problemen. Priorisieren Sie die Datenqualität von Anfang an, um nachgelagerte Probleme zu vermeiden.
Ein 5-Schritte-Ansatz zur Verbesserung der Datenplattform-Erfahrung
Verbessern Sie die UX der Datenplattform mit einem 5-Schritte-Prozess: Feedback sammeln, Benutzerreisen kartieren, Reibung reduzieren und kontinuierlich durch Iteration verbessern.
Von Gutem AI zu Gutem Data Engineering. Oder wie Verantwortungsbewusste AI mit Hoher Datenqualität zusammenwirkt.
Verantwortliche KI hängt von hochwertiger Datenverarbeitung ab, um ethische, faire und transparente KI-Systeme zu gewährleisten.
Ein Einblick in das Leben eines Datenführers
Datenführer stehen unter Druck, den Hype um KI mit der Organisation der Datenlandschaft in Einklang zu bringen. So bleiben sie fokussiert, pragmatisch und strategisch.
Datenstabilität mit Python: Wie man selbst die kleinsten Änderungen erfasst
Als Data Engineer ist es fast immer die sicherste Option, Daten-Pipelines alle X Minuten auszuführen. So können Sie nachts gut schlafen…
Klare Signale: Verbesserung der Kommunikation innerhalb eines Datenteams
Entmystifizierung des Geräteflusses
Implementierung des OAuth 2.0 Device Authorization Grant mit AWS Cognito und FastAPI
Kurze Feedbackzyklen auf AWS Lambda
Eine Makefile, die es ermöglicht, schnell zu iterieren
Prompt-Engineering für eine bessere SQL-Codegenerierung mit LLMs
Stellen Sie sich vor, Sie sind ein Marketing-Manager, der damit beauftragt ist, Werbestrategien zu optimieren, um verschiedene Kundensegmente effektiv anzusprechen…
Alter der DataFrames 2: Polars Ausgabe
In dieser Veröffentlichung präsentiere ich einige Tricks und Funktionen von Polars.
Quack, Quack, Ka-Ching: Kosten senken, indem man Snowflake von DuckDB abfragt
Wie man Snowflakes Unterstützung für interoperable offene Lakehouse-Technologie — Iceberg — nutzen kann, um Geld zu sparen.
Die Bausteine erfolgreicher Daten-Teams
Basierend auf meiner Erfahrung werde ich die wichtigsten Kriterien für den Aufbau erfolgreicher Daten-Teams näher erläutern.
Abfragen hierarchischer Daten mit Postgres
Hierarchische Daten sind weit verbreitet und einfach zu speichern, aber ihre Abfrage kann herausfordernd sein. Dieser Beitrag wird Sie durch den Prozess…
Wie man ein Datenteam organisiert, um den größten Nutzen aus Daten zu ziehen
Um das Offensichtliche zu sagen: Ein Datenteam ist dafür da, dem Unternehmen Mehrwert zu bieten. Aber ist das wirklich so offensichtlich? Haben Unternehmen nicht zu oft ein ...
Clout* zertifiziert werden
Heiße Meinungen zu meinen Erfahrungen mit Cloud-Zertifizierungen
Sie können einen Supercomputer verwenden, um eine E-Mail zu senden, aber sollten Sie das?
Entdecken Sie die nächste Evolution der Datenverarbeitung mit DuckDB und Polars
Zwei Lifecycle-Richtlinien, die jeder S3-Bucket haben sollte
Abgebrochene Mehrteil-Uploads und abgelaufene Löschmarker: was sind sie und warum Sie sich wegen der schlechten AWS-Standarde darum kümmern müssen.
Wie wir GenAI genutzt haben, um die Regierung zu verstehen
Wir haben einen RAG-Chatbot mit AWS Bedrock und GPT-4 entwickelt, um Fragen zur flämischen Regierung zu beantworten.
Wie wir unsere Docker-Bauzeiten um 40% reduziert haben
Dieser Beitrag beschreibt zwei Möglichkeiten, das Erstellen Ihrer Docker-Images zu beschleunigen: Das Caching von Build-Informationen remote und die Verwendung der Link-Option beim Kopieren von Dateien.
Kreuz-DAG-Abhängigkeiten in Apache Airflow: Ein umfassender Leitfaden
Vier Methoden zur effektiven Verwaltung und Skalierung Ihrer Datenworkflow-Abhängigkeiten mit Apache Airflow erkunden.
Daten mit Spark und Iceberg einfügen bzw. aktualisieren
Verwenden Sie die MERGE INTO-Syntax von Spark und Iceberg, um täglich inkrementelle Schnappschüsse einer veränderlichen Quelltabelle effizient zu speichern.