084 - Modale Sprachmodelle

6 Minuten

11.56 MB

Podcast

Podcaster

Prompt und Antwort

Technologie

Beschreibung

vor 3 Monaten

Multimodale Modelle sind keine Alleskönner, sondern clevere Teams
aus spezialisierten Systemen. Wir klären auf, wie Large Language
Models (LLMs), die von Natur aus für Text gemacht sind, Bilder
und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch
einen eingefrorenen Vision Encoder in
visuelle Tokens (Vektoren) umgewandelt. Die
eigentliche Magie liegt in der trainierbaren
Brücke, die diese Tokens für den Sprachexperten (das
LLM) übersetzt. Wir stellen die beiden Hauptansätze zur
Verbindung vor: den nicht-invasiven Ansatz (wie
bei LLaVA) und den invasiven Ansatz (wie beim
Flamingomodell), der dem LLM ermöglicht, permanent auf die
Bildinformationen zurückzugreifen. Zudem grenzen wir die
Perzeption (Encoding) klar von der Bildererzeugung
(Decoding/Diffusionsmodelle) ab.