Podcast
Podcaster
Beschreibung
vor 2 Tagen
Wie misst man die Qualität von Gen-AI-Projekten, wenn der Output
selten eindeutig richtig oder falsch ist und ein Ground Truth oft
fehlt? Auf Anregung unserer Hörerin Andrea sprechen Mira und
Tobias darüber, warum die Evaluation generativer Anwendungen ein
Umdenken gegenüber klassischen ML-Projekten erfordert. Sie
stellen verschiedene Ansätze vor – von klassischem Testen über
Goldstandard-Datensätze und "LLM as a Judge" bis zu
Similarity-Metriken und User Testing – und ordnen deren Stärken
und Schwächen ein. Außerdem geht es um den Umgang mit Spezial-
und Off-Topic-Fällen, Manipulationsversuche, Red-Teaming und die
Frage, wie groß ein Goldstandard eigentlich sein sollte. Das
Fazit: Es gibt keine Faustformel, dafür rücken
Domänenverständnis, Produktfokus und Risikomanagement stärker in
den Mittelpunkt.
**Zusammenfassung**
Umdenken nötig: Bei Gen-AI ist der Output oft nicht klar
richtig oder falsch, was klassische Evaluationslogik an ihre
Grenzen bringt
Frühe Validierung mit Endnutzenden ist sinnvoll und oft
erforderlich, weil man schnell etwas Vorzeigbares hat
Klassisches Testen funktioniert weiterhin, wo es fixe
Metriken oder einen Goldstandard gibt; ein schrittweiser oder
verdeckter Rollout liefert früh Ergebnisse
LLM as a Judge: gut automatisierbar, aber korreliert oft
schlecht mit menschlicher Einschätzung; ein Ensemble mehrerer
Modelle kann helfen
Similarity-Metriken wie Cosine Similarity eignen sich als
günstiger Vorfilter, bevor der teure LLM-Judge läuft
User Testing über Testmatrix, Testszenarien und Testpersonas
ist aussagekräftig, aber aufwändig und bei jeder Änderung erneut
nötig
Spezialfälle absichern: Umgang mit Off-Topic-, Nonsense- und
Manipulationsversuchen, Red-Teaming und ein kleiner
Standard-Datensatz als Sanity-Check
Fazit: keine Faustformel – das Skillset wird breiter,
Domänenverständnis und Produktfokus wichtiger, Risikomanagement
rückt in den Vordergrund
**Links**
#47: Von Prognosen und Prompts: Data Science trifft
generative KI mit Tobias
Sterbak https://www.podbean.com/ew/pb-dkyex-1613842
Tobias Sterbak auf
LinkedIn: https://www.linkedin.com/in/tobias-sterbak/
Fragen, Feedback oder Themenwünsche?
Schreibt uns gern an: podcast@inwt-statistics.de
Weitere Episoden
32 Minuten
vor 2 Wochen
28 Minuten
vor 1 Monat
38 Minuten
vor 1 Monat
34 Minuten
vor 1 Monat
47 Minuten
vor 2 Monaten
Kommentare (0)
Melde Dich an, um einen Kommentar zu schreiben.