#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch

47 Minuten

Beschreibung

vor 8 Monaten

AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie
richtig? Wir sprechen über die Herausforderungen beim Testen von
AI im Kundenservice, warum falsche API-Parameter ins Chaos führen
und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde.
Matthäus Deutsch von Parloa berichtet, wie flexible
Plattformintegrationen und evaluative Ansätze (z.B.
assertion-based Testing und Simulationen) den Einsatz von AI
Agents vorantreiben. Außerdem: welche Metriken wirklich zählen,
was Multi-Agent-Setups leisten und warum der Preisverfall bei
Open-Source-Modellen das Game verändert. 


 


Zusammenfassung


AI Agents erweitern klassische Chatbots im Kundenservice,
insbesondere im Telefonbereich, durch GenAI-basierte, dynamische
Lösungen

Parloa demonstriert flexible Plattformintegrationen und den
Einsatz von Evaluationsmethoden wie assertion-based Testing und
Simulationen

Die Evaluation von AI Agents erfordert spezielles
Benchmarking auf Plattform- und individueller Ebene

Typische Herausforderungen sind Integrationsprobleme,
fehlerhafte API-Calls und unzureichendes Instruction Following

Tests erfolgen sowohl auf Konversationsebene als auch durch
deterministische Ansätze und LLMs als Judge

Es müssen komplexe Metriken und Trade-offs beachtet werden,
wobei häufig binäre Testansätze aggregiert werden

Schnelle Updates auf neue Modellversionen sind möglich,
allerdings steigen langfristig die Kosten durch umfangreiche
Testzyklen

Innovationen wie optimierte Speech-to-Speech-Technologien und
Open-Source-Lösungen (z. B. DeepSeek) bieten Potenzial zur
Kostenreduktion

Der Einsatz von Operatoren-Modellen und Tool-Integrationen
ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAP

Ziel ist es, den Automatisierungsanteil im Kundenservice zu
erhöhen und eine Balance zwischen bewährter Qualität und neuen
Features zu finden



Links


Matthäus Deutsch auf LinkedIn:
https://www.linkedin.com/in/matth%C3%A4us-d-928864ab/

Parloa Contact-Center-AI-Plattform https://www.parloa.com/de/

Stellenangebote bei Parloa
https://www.parloa.com/company/careers/#jobs

#55: Alle machen XGBoost, aber was macht eigentlich XGBoost?
Mit Matthäus Deutsch https://www.podbean.com/ew/pb-6gvc6-16d5018

#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt
OpenAI und XGBoost bei Preisprognosen?
https://www.podbean.com/ew/pb-m5qr2-17c425d

heise online: "Aromatisches" Chloramingas, Eintopf aus
Menschenfleisch: KI-Rezepte irritieren
https://www.heise.de/news/Aromatisches-Chlorgas-Eintopf-aus-Menschenfleisch-KI-irritiert-mit-Rezepten-9242991.html

Feedback, Fragen oder Themenwünsche gern an
podcast@inwt-statistics.de

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15