125 - multimodales RAG

vor 3 Monaten

6 Minuten

0 0 0

Podcast

Podcaster

Prompt und Antwort

Technologie

Beschreibung

vor 3 Monaten

Diese Folge erklärt Multimodal RAG und wie man
Retrieval Augmented Generation erweitert, um neben Text auch
Bilder, Audio und Video zu verarbeiten. Wir vergleichen drei
technische Ansätze für die Umsetzung: die Umwandlung aller Medien
in Text („Text-ify everything“), das hybride Modell und das
komplexe „Full Multimodal RAG“, das einen gemeinsamen Vektorraum
für alle Datentypen nutzt.