KI-Stimmen in der Podcast-Szene

Mischen KI-Stimmen bald die Podcast-Szene auf?

Zuletzt aktualisiert: 10. Nov 2023
Erstellt: 1. Jun 2023

Erste Podcasts mithilfe von künstlich generierten Stimmen laufen an. Was kann die neue Technologie und wie wird sie bisher genutzt? Ein Artikel über Potenziale und Gefahren von KI-Stimmen.

Bild: Tara Winstead
Mischen KI-Stimmen bald die Podcast-Szene auf?

Erste Podcasts mit synthetischen Stimmen

Künstliche Intelligenz begegnet uns mittlerweile überall. Sie wird vielseitig eingesetzt und revolutioniert unseren Alltag vom Smart-Home bis zum KI-betriebenen Navigationssystem im Pendelverkehr. Nun sollen neue Text-to-Speech-Systeme (TTS) dabei helfen, das mühsame Einsprechen von Texten mithilfe von synthetischen Stimmen zu automatisieren.

Wir kennen sie alle, die künstlichen Roboterstimmen, denen man ihre Unmenschlichkeit sofort anhört. Erste Bekanntheit erlangten sie durch die Warteschleifen von Telefonhotlines. Dort sorgten sie durch die spürbare Distanz zum Menschen nicht selten für Entrüstung. Jetzt soll Schluss damit sein. Dank Deep Learning entstehen künstlich generierte Sprechtexte, die von menschlicher Sprache kaum noch zu unterscheiden sind.

Auf dem Markt werden solche Stimmen bereits für Podcasts verwendet. Gerade kompakte, häufig veröffentlichte Formate eignen sich, um automatische generierte Stimmen einzusetzen. Florian Kasten von Schønlein Media verrät uns, dass ihre Produktion Wissen Daily bereits mit einer synthetischen Stimme von ElevenLabs arbeitet. Dass hier eine KI am Werk ist, lässt sich kaum erahnen. Bei einer Hörprobe lässt sich schwer beurteilen, ob hier ein echter Mensch oder eine künstliche Intelligenz spricht. Anders sieht es bei dem Format Quiztime selbiger Produktionsfirma aus. Der interaktive Podcast spielt mit der künstlich klingenden Stimme und setzt sie als Stilmittel ein.

Wissen Daily

Wie entstehen die menschlich klingenden KI-Stimmen?

Auch Nachrichtensprecher können mit TTS-Systemen authentisch nachgeahmt werden. RTL Deutschland, Bertelsmann und Microsoft haben hierzu ein Projekt in die Wege geleitet, bei dem die Stimme des Moderators Maik Meuser, sowie die Stimme der Podcast-Redakteurin Inken Wriedt aufgezeichnet und durch ein künstliches neuronales Netz synthetisiert wird. Das System lernt, indem es der Stimme immer wieder 'zuhört' und sie dann imitiert. Dadurch lässt sich "nicht nur das Klangbild der Stimme, sondern auch die Betonung und der Redefluss sehr schön nachbilden", erklärt Clemens Siebler, Spezialist für künstliche Intelligenz. Moderator Maik Meuser selbst räumt in einem RTL-Interview ein, dass es sich nicht besonders gut anfühlt, etwas zu hören, was er selber nie gesagt hat. Moderatorin Inken Wriedt erzählt im Podcast NAPS - Neues aus der Podcast-Szene mehr dazu, wie es sich anfühlt, Vorbild für eine KI-Stimme zu sein.

NAPS - Neues aus der Podcast-Szene

Einfach Podcasts! Bei NAPS gibt's regelmäßig Podcast-News und Interviews aus der podcast.de-Redaktion.

KI-Stimmen: Dinge, die du nie gesagt hast, kommen aus deinem Mund

Nicht immer muss eine aufwendige Transkription und Aufarbeitung erfolgen, wie es bei Meusers oder Wriedts synthetischer Stimme der Fall war.

Oft reichen kurze Audios aus, um Text-To-Speech-Systeme zu füttern, mit denen neue Inhalte erstellt werden können. Die Anfälligkeit für Missbrauch und Täuschung liegt an dieser Stelle nahe. So wurde ein TTS-System dazu genutzt, um Audiofakes mit den Stimmen berühmter Personen zu produzieren. Dadurch gelang unter anderem ein Clip in Umlauf, in dem die Schauspielerin Emma Watson scheinbar einen Auszug aus Adolf Hitlers Mein Kampf liest.

Ein anderes Beispiel zeigt sich anhand des Songs Heart on My Sleeve, der im April 2023 erschien. Er wurde mithilfe der Stimmen von Drake und The Weeknd erzeugt und ging dann viral. Das Plattenlabel Universal Music Group ließ das Stück kurzerhand wieder entfernen. Der Fall zeigt, was passiert, wenn neue Technologie den Markt erreicht, bevor Gesetzgeber Reglungen in die Wege leiten können.

Um Missbrauch besser nachverfolgen zu können, arbeiten Unternehmen zur Erzeugung von künstlichen Stimmen wie ElevenLabs an Lösungen wie Wasserzeichen oder der Verknüpfung von Nutzerkonto und Kreditkarte. Damit soll in Zukunft eine Abschreckung gegen die Verbreitung von Fake-News gewährleistet werden. Verfälschte Inhalte könnten somit auf die Nutzer der Plattform zurückgeführt werden.

Wie realistisch ist ein Einzug von KI-Stimmen in die Podcast-Szene?

Bislang bleibt noch offen, welche Relevanz KI-Stimmen für die Podcast-Branche haben werden. In angrenzenden Bereichen, wie dem Hörbuchmarkt scheint eine einschlägigere Veränderung stattzufinden. Verlage kompensieren Gewinnverluste in Folge einer sinkenden Leserschaft mit kostengünstigen KI-Stimmen für Hörbücher. Die Inhalte des Vorgelesenen werden hier scheinbar weniger mit dem menschlichen Sprecher in Verbindung gebracht.

Auf dem OMR-Festival in Hamburg griff Vincent Kittmann, Geschäftsführer von Podstars, die Frage nach der persönlichen Verbindung zwischen Sprecher und Zuhörer auf. Die intime Verbindung zwischen Hosts und ihren Fans sei nicht zu unterschätzen: „Wir glauben, KI ist kein Game-Changer für's Podcast-Game“, erklärte er dort.

Die Podcast-Szene scheint sich demnach nach einer authentischen Vermittlung des Gehörten zu sehnen. Es geht also nicht nur um die bloße Übermittlung von Informationen. So begeistern etablierte Formate wie Interview-Podcasts ihre Zuhörer dadurch, dass eine zwischenmenschliche Beziehung zwischen Hörer und Host hergestellt wird.

Auf der anderen Seite räumt Kittmann ein, dass "etwas Hilfe auf dem Bereich der niederschwelligen Content-Erstellung“ vorstellbar sei. Rein informative Podcasts verzeichnen derzeit einen hohen Zuwachs und könnten künftig mithilfe von KI-Stimmen effizienter arbeiten.

Ein Widerspruch entsteht nicht zuletzt dadurch, dass die künstlichen Stimmen so natürlich wie möglich klingen sollen, um uns am Ende doch einen Sprecher mit menschlichen Attributen zu imitieren.