#86: "Garbage In, Garbage Out" verhindern: Datenvalidierung richtig gemacht ~ Data Science Deep Dive Podcast

In dieser Episode dreht sich alles um Datenvalidierung und darum,
wie sich das Prinzip "Garbage In, Garbage Out" vermeiden lässt.
Mira und Michelle erklären, warum eine gründliche Prüfung der
Datenqualität direkt zu Projektbeginn entscheidend ist. Im Fokus
stehen typische Checks wie Schema-Validierung, Vollständigkeit,
Konsistenz und statistische Auffälligkeiten. Außerdem geht es
darum, wie Datenvalidierung hilft, Daten besser zu verstehen und
Fehler frühzeitig aufzudecken. Abschließend werden praktische
Techniken und Tools vorgestellt, die von manueller Analyse bis
zur automatisierten Pipeline reichen.

**Zusammenfassung**

Datenvalidierung prüft die Datenqualität vor der Modellierung

Ziel: Probleme früh erkennen und Ressourcen sparen

Wichtige Aspekte: Datentypen, Duplikate, fehlende Werte

Logik- und Plausibilitätschecks (z.B. Alter nicht negativ,
Prozentwerte im richtigen Bereich)

Statistische Methoden zur Erkennung von Anomalien und
Verteilungen

Univariat: einfache Kennzahlen, Histogramme, Boxplots,
Zeitreihenanalysen

Multivariat: Korrelationen, Scatterplots, Kreuztabellen,
Multikollinearität

Tools reichen von Notebooks und Reports bis zu Dashboards und
automatisierten Pipelines

**Links**

Great Expectations (Datenvalidierung in Python):
https://greatexpectations.io/

Pandera (Schema-Validierung für Pandas):
https://pandera.readthedocs.io/

dataMaid (Datenvalidierung in R):
https://cran.r-project.org/web/packages/dataMaid/index.html

Pydantic (Datenvalidierung & Settings in Python):
https://docs.pydantic.dev/

Wikipedia-Eintrag zum Prinzip "Garbage In, Garbage Out":
https://de.wikipedia.org/wiki/Garbage_In,_Garbage_Out

#86: "Garbage In, Garbage Out" verhindern: Datenvalidierung richtig gemacht

Beschreibung

Weitere Episoden

#87: [PAIQ3] Predictive AI Quarterly

#85: Technologieauswahl im Dschungel der Möglichkeiten

Kurze Pause, frische Energie: Wir hören uns im neuen Jahr!

#84: Body Leasing: Zwischen Beratung, Teamkultur und Erwartungsmanagement

#83: Wie gut ist gut genug? Modellgütemaße richtig verstehen

Kommentare (0)

Abonnenten

Anmelden mit