#27 MULTIMODAL AGENTS, VOICE AI'S & UNSERE ZUKUNFT MIT EUCH

#27 MULTIMODAL AGENTS, VOICE AI'S & UNSERE ZUKUNFT MIT EUCH

34 Minuten

Beschreibung

vor 6 Monaten
In Folge 27 sprechen wir über die nächste Evolutionsstufe von
KI-Agenten – und wohin die Reise für uns als Podcast und Plattform
geht. ElevenLabs präsentiert mit Conversational AI 2.0 ein rundum
erneuertes System mit Turn-Taking, Multicharacter-Dialogen,
Live-RAG und Sprachwechsel in Echtzeit. Gleichzeitig geht der Druck
durch Open Source weiter: Chatterbox von Resemble AI bringt
Zero-Shot Voice Cloning als öffentliches Gegenmodell. Auch Google
liefert: Mit neuen Integrationen in Cloud Run lassen sich KI-Apps
jetzt direkt aus AI Studio deployen – z. B. mit Gemma-Modellen. Und
bei DeepSeek gibt’s ein 8B-Modell, das sogar lokal auf dem Laptop
läuft. Odyssey sorgt für Staunen mit dem Konzept interaktiver
Echtzeit-Videos. Und FLUX.1 Kontext von Black Forest Labs hebt
Bild-Editing auf ein neues Level: Text UND Bilder als Input – mit
direkter In-Context-Bearbeitung. Zum Schluss sprechen wir offen
über die Zukunft von brüderlich vernetzt, unsere Vision, neue
Formate – und warum gerade jetzt der beste Moment ist, tiefer
einzusteigen. Wenn dir der Podcast gefällt, freuen wir uns über
eine 5-Sterne-Bewertung – und bleib unbedingt dran, was bei uns
noch alles kommt.      

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15