#97: Die Güte von Gen-AI-Projekten bewerten mit Tobias Sterbak ~ Data Science Deep Dive Podcast

Wie misst man die Qualität von Gen-AI-Projekten, wenn der Output
selten eindeutig richtig oder falsch ist und ein Ground Truth oft
fehlt? Auf Anregung unserer Hörerin Andrea sprechen Mira und
Tobias darüber, warum die Evaluation generativer Anwendungen ein
Umdenken gegenüber klassischen ML-Projekten erfordert. Sie
stellen verschiedene Ansätze vor – von klassischem Testen über
Goldstandard-Datensätze und "LLM as a Judge" bis zu
Similarity-Metriken und User Testing – und ordnen deren Stärken
und Schwächen ein. Außerdem geht es um den Umgang mit Spezial-
und Off-Topic-Fällen, Manipulationsversuche, Red-Teaming und die
Frage, wie groß ein Goldstandard eigentlich sein sollte. Das
Fazit: Es gibt keine Faustformel, dafür rücken
Domänenverständnis, Produktfokus und Risikomanagement stärker in
den Mittelpunkt.

**Zusammenfassung**

Umdenken nötig: Bei Gen-AI ist der Output oft nicht klar
richtig oder falsch, was klassische Evaluationslogik an ihre
Grenzen bringt

Frühe Validierung mit Endnutzenden ist sinnvoll und oft
erforderlich, weil man schnell etwas Vorzeigbares hat

Klassisches Testen funktioniert weiterhin, wo es fixe
Metriken oder einen Goldstandard gibt; ein schrittweiser oder
verdeckter Rollout liefert früh Ergebnisse

LLM as a Judge: gut automatisierbar, aber korreliert oft
schlecht mit menschlicher Einschätzung; ein Ensemble mehrerer
Modelle kann helfen

Similarity-Metriken wie Cosine Similarity eignen sich als
günstiger Vorfilter, bevor der teure LLM-Judge läuft

User Testing über Testmatrix, Testszenarien und Testpersonas
ist aussagekräftig, aber aufwändig und bei jeder Änderung erneut
nötig

Spezialfälle absichern: Umgang mit Off-Topic-, Nonsense- und
Manipulationsversuchen, Red-Teaming und ein kleiner
Standard-Datensatz als Sanity-Check

Fazit: keine Faustformel – das Skillset wird breiter,
Domänenverständnis und Produktfokus wichtiger, Risikomanagement
rückt in den Vordergrund

**Links**

#47: Von Prognosen und Prompts: Data Science trifft
generative KI mit Tobias
Sterbak https://www.podbean.com/ew/pb-dkyex-1613842

Tobias Sterbak auf
LinkedIn: https://www.linkedin.com/in/tobias-sterbak/

Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: podcast@inwt-statistics.de

#97: Die Güte von Gen-AI-Projekten bewerten mit Tobias Sterbak

Beschreibung

Weitere Episoden

#96: Queer Data: Wie erfasst, bereinigt und analysiert man sensible Daten?

#95: GitOps: Deployments mit Ruhepuls

#94: [PAIQ4] Predictive AI Quarterly

#93: Bayesianische Statistik: Vorwissen und Daten kombinieren

#92: Anomaly Detection von Produktbildern mit ClickHouse

Kommentare (0)

Abonnenten

Bleibe beim Podcasting auf dem Laufenden

Anmelden mit