143 - Voxtral

143 - Voxtral

vor 3 Tagen
6 Minuten
Podcast
Podcaster

Beschreibung

vor 3 Tagen

In dieser Folge des KI Gilde Podcasts dreht sich alles
um Voxtral, ein bahnbrechendes
Text-to-Speech-Modell mit 4 Milliarden Parametern. Mit einer
extrem schnellen Reaktionszeit von nur 70 bis 90 Millisekunden
durchbricht es bisherige Grenzen und ermöglicht durch die
parallele Verarbeitung von Semantik und Akustik absolut flüssige
Echtzeitgespräche.


Wir beleuchten zudem das Drama um den Release: Warum fehlte
anfangs der essenzielle Codec-Encoder zum Stimmenklonen und wie
hat ein einzelner Entwickler aus der Open-Source-Community dieses
Problem durch Reverse Engineering in Rekordzeit selbst gelöst?


Zum Schluss gibt es unseren Praxistest: Wir verraten, warum die
weibliche deutsche Stimme restlos begeistert, die männliche aber
komplett durchfällt – und stellen die große Frage, ob offene
Kollektive oder Großkonzerne die Zukunft der KI-Innovation
kontrollieren.
15
15
Close