#27 MULTIMODAL AGENTS, VOICE AI'S & UNSERE ZUKUNFT MIT EUCH ~ BRÜDERLICH VERNETZT

In Folge 27 sprechen wir über die nächste Evolutionsstufe von
KI-Agenten – und wohin die Reise für uns als Podcast und Plattform
geht. ElevenLabs präsentiert mit Conversational AI 2.0 ein rundum
erneuertes System mit Turn-Taking, Multicharacter-Dialogen,
Live-RAG und Sprachwechsel in Echtzeit. Gleichzeitig geht der Druck
durch Open Source weiter: Chatterbox von Resemble AI bringt
Zero-Shot Voice Cloning als öffentliches Gegenmodell. Auch Google
liefert: Mit neuen Integrationen in Cloud Run lassen sich KI-Apps
jetzt direkt aus AI Studio deployen – z. B. mit Gemma-Modellen. Und
bei DeepSeek gibt’s ein 8B-Modell, das sogar lokal auf dem Laptop
läuft. Odyssey sorgt für Staunen mit dem Konzept interaktiver
Echtzeit-Videos. Und FLUX.1 Kontext von Black Forest Labs hebt
Bild-Editing auf ein neues Level: Text UND Bilder als Input – mit
direkter In-Context-Bearbeitung. Zum Schluss sprechen wir offen
über die Zukunft von brüderlich vernetzt, unsere Vision, neue
Formate – und warum gerade jetzt der beste Moment ist, tiefer
einzusteigen. Wenn dir der Podcast gefällt, freuen wir uns über
eine 5-Sterne-Bewertung – und bleib unbedingt dran, was bei uns
noch alles kommt.

#27 MULTIMODAL AGENTS, VOICE AI'S & UNSERE ZUKUNFT MIT EUCH

Beschreibung

Weitere Episoden

#42 APPLE EVENT REACTION – AIRPODS MIT LIVE-ÜBERSETZUNG, APPLE WATCH & DAS KATASTROPHALE IPHONE 17

#41 WAS IST MIT KI PASSIERT? – DER HYPE IST VORBEI?

#40 ElevenLabs & DeepSeek 3.1 - Von Gangsta-Alpenrap bis Audiobücher

#39 GPT-5 fühlt sich wieder wie 4.0 an – Und ElevenLabs macht jetzt Musik

#38 GPT-5: Ernüchterung nach dem Hype – Unser ehrliches Fazit

Kommentare (0)

Abonnenten

Anmelden mit