084 - Modale Sprachmodelle
6 Minuten
Podcast
Podcaster
Beschreibung
vor 3 Wochen
Multimodale Modelle sind keine Alleskönner, sondern clevere Teams
aus spezialisierten Systemen. Wir klären auf, wie Large Language
Models (LLMs), die von Natur aus für Text gemacht sind, Bilder
und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch
einen eingefrorenen Vision Encoder in
visuelle Tokens (Vektoren) umgewandelt. Die
eigentliche Magie liegt in der trainierbaren
Brücke, die diese Tokens für den Sprachexperten (das
LLM) übersetzt. Wir stellen die beiden Hauptansätze zur
Verbindung vor: den nicht-invasiven Ansatz (wie
bei LLaVA) und den invasiven Ansatz (wie beim
Flamingomodell), der dem LLM ermöglicht, permanent auf die
Bildinformationen zurückzugreifen. Zudem grenzen wir die
Perzeption (Encoding) klar von der Bildererzeugung
(Decoding/Diffusionsmodelle) ab.
Weitere Episoden
6 Minuten
vor 21 Stunden
7 Minuten
vor 2 Tagen
5 Minuten
vor 4 Tagen
6 Minuten
vor 1 Woche
7 Minuten
vor 1 Woche
In Podcasts werben
Kommentare (0)