Episode 6: Automatisierung des Podcastings: Speech-to-Text und Qualitätsverbesserung mit KI

Episode 6: Automatisierung des Podcastings: Speech-to-Text und Qualitätsverbesserung mit KI

Beschreibung

vor 9 Monaten
Kilometer 7.794. In der sechsten Episode des AIne Ahnung-Podcasts
erforscht der Gastgeber Adam das Thema Speech-to-Text. Adam teilt
seine Erfahrungen mit der Automatisierung des Podcasting-Prozesses
und startet mit einer persönlichen Beobachtung. Er befindet sich
gerade im Auto, was zu einigen Hintergrundgeräuschen führt, und
nutzt die Zeit zwischen Arbeit und Zuhause, um diese kurze Episode
aufzunehmen. Adam gesteht, dass er von Natur aus ein fauler Mensch
ist und bereits versucht hat, den Podcast-Prozess zu
automatisieren. Bisher war es jedoch immer ein langwieriger
Prozess, den Podcast aufzunehmen, zu bearbeiten, ein Intro
hinzuzufügen und die Show-Notizen zusammenzustellen. Eine Idee, die
Adam bereits in der vorherigen Episode hatte, war die Verwendung
einer Speech-to-Text-Engine, um den Podcast zu transkribieren. In
der vorherigen Episode hat er IBM Watson dafür genutzt und wollte
diese Idee weiterverfolgen. Jetzt hat er sich für OpenAI's Whisper
achieve entschieden. Adam erklärt, dass er ungefähr vier Stunden
damit verbracht hat, alles einzurichten. Er hat OpenAI's
Whisper-Modellsoftware auf seinem Windows 11-System in einem
Subsystem für Linux installiert. Er hat experimentiert und
festgestellt, dass das kleine Modell bereits gute Ergebnisse
liefert. Dadurch entfällt für ihn die zeitaufwendige Aufgabe, den
Text für jede Episode manuell zu transkribieren. Stattdessen kann
er die AI-Tools nutzen, um den transkribierten Text zu generieren.
Adam erwähnt, dass er den generierten Text dann durch ChatGPT
schickt und den AI-Agenten bittet, eine Zusammenfassung der Episode
zu erstellen. Diese Zusammenfassung wird dann zur Beschreibung der
Episode verwendet. Es ist ein einfacher Ansatz, den Adam gewählt
hat, der jedoch mit einer gewissen Vorbereitungszeit verbunden war.
Ein weiteres Problem, dem Adam begegnet ist, ist die
Aufnahmequalität des Podcasts. Da er kein Studio-Mikrofon verwendet
und sich im Auto befindet, ist die Klangqualität nicht optimal.
Hier kommt Adobe Enhance zur Hilfe. Adam hat die AI von Adobe
genutzt, um eine Audio-Datei hochzuladen und Störgeräusche und
eingeschränkte Qualität zu entfernen. Die Sprachqualität wird
verbessert, und nach wenigen Minuten kann er eine qualitativ
hochwertigere Datei herunterladen. Adam ist mit dem Ergebnis
zufrieden und freut sich, dass er keine manuellen Anpassungen oder
Unterdrückungsmaßnahmen mehr vornehmen muss. Adam betont, dass
diese KI-Tools noch in einem Beta-Stadium sind, aber er findet die
Ergebnisse bereits beeindruckend. Er muss sich nun nicht mehr um
die Transkription des Textes oder die Verbesserung der
Klangqualität kümmern. Diese Aufgaben werden von den KI-Tools
kostenlos erledigt. Abschließend erwähnt Adam, dass er bereits
einige Tipps von ChatGPT erhalten hat, wie er den Podcast-Feed am
besten vorbereiten kann. Einer der nächsten Schritte wird die
Veröffentlichung der Episoden sein.

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15
:
: