Transkription und künstliche Stimmen

'Text to Speech' und 'Speech to Text' für Podcasts

Zuletzt aktualisiert: 10. Nov 2023
Erstellt: 16. Jun 2022

Text to Speech, Speech to Text - Was bedeuten diese Technologien für die Podcast-Branche? An manchen Stellen können die KI-Lösungen schon punkten, an anderen Stellen hapert es aber noch deutlich.

Bild: Pexels
'Text to Speech' und 'Speech to Text' für Podcasts

In der Regel geht es bei Podcasts um das gesprochene Wort. Podcaster sprechen, Hörer hören. Dieses simple Prinzip hat viele Vorteile: Niemand muss tippen, korrigieren, lesen, nicht mal hinsehen. Zuhören reicht vollkommen aus. Das bedeutet allerdings nicht auch im Umkehrschluss, dass Podcasts in geschriebener Form keine Vorteile hätten. In diesem Artikel geht es um zwei verschiedene Weisen, auf die Podcasts mit geschriebenem Text zusammenwirken können. Es geht um Transkription und künstliche Stimmen.

Text to Speech (TTS) - Künstliche Stimmen für Podcasts

Das Funktionsprinzip ist recht simpel. Ein geschriebener Text wird in einen Sprachcomputer eingegeben, dieser gibt ihn dann als gesprochenes Wort in Audioform aus. Wenngleich es diese Form des Vorlesens schon seit einigen Jahren gibt, steckt die Technologie noch in den Kinderschuhen. Das bloße Vorlesen von Texten reicht nämlich häufig nicht aus. Die Stimmen sollen möglichst natürlich klingen, sie sollen menschlich anmuten, denn die Praxis hat gezeigt, dass künstlich klingende Stimmen von Hörern ungern genutzt werden.

Die weltgrößten Konzerne arbeiten an dieser Technologie. Google, Microsoft, Apple und Amazon konkurrieren, um mit ihren Produkten den Markt zu prägen. Während Text to Speech-Anwendungen für emotionale oder personenbezogene Formate (Liebe, Persönliches, Comedy) weitgehend ungeeignet scheinen, feiern sie in anderen Bereichen bereits beachtliche Erfolge. Zahlreiche Zeitungen, Sender und Medienhäuser verwerten ihre geschriebenen Texte weiter, indem sie sie von einer Sprachanwendung vorlesen lassen. Das fördert die Barrierefreiheit, steigert die Reichweite und illustriert technisches Knowhow. Die fertigen Audiostücke landen dann in Podcasts, dort wird das geschriebene Wort hörbar. Menschen, die zuvor nur Leser waren, können die Stücke nun auch im Auto oder beim Bügeln wahrnehmen.

Speech to Text (STT) - Transkription von Podcasts

Das ganze funktioniert natürlich auch in die Gegenrichtung. In diesem Fall wird das gesprochene Wort in Schrift verwandelt. Auch das geschieht mithilfe moderner Software. Audiodateien aus Podcasts werden in das Programm eingespeist und nahezu in Echtzeit als geschriebenes Wort wieder ausgegeben. In der Podcast-Branche spricht man auch von Transkripten oder Transkriptionen.

Transkripte können prinzipiell für jeden Podcaster ein Mehrwert sein. Ähnlich wie bei den TTS-Lösungen wird nämlich auch hier die Barrierefreiheit gefördert und die Nutzung eines weiteren Mediums ermöglicht. Was vorher nur hörbar war, wird plötzlich lesbar. Die Lesbarkeit bietet zahlreiche Vorteile. Leser können Texte überfliegen, zurückspringen, Seiten auslassen oder den Text auf Stichwörter durchsuchen. Apropos durchsuchen, das gilt natürlich auch für Suchmaschinen. Transkriptionen erhöhen die (bislang nach wie vor ausbaufähige) Auffindbarkeit von Podcasts, denn sie sollten zumindest theoretisch alle Podcast-relevanten Stichworte enthalten.

Auch an dieser Technologie arbeiten zahlreiche Unternehmen ehrgeizig. Die Lösungen werden stetig besser, bislang ist jedoch in der Regel noch ein ausführliches Lektorat zu empfehlen. Mögliche Störquellen sind Hintergrundgeräusche, mehrere Sprecher oder Dialekte. STT-Lösungen können dennoch viel Zeit sparen, sind verhältnismäßig günstig und werden rapide leistungsfähiger.

Im NAPS-Podcast aus der podcast.de-Redaktion sind spannende Interviews zu Transkription und künstlichen Stimmen zu hören.

NAPS - Neues aus der Podcast-Szene

Einfach Podcasts! Bei NAPS gibt's regelmäßig Podcast-News und Interviews aus der podcast.de-Redaktion.