084 - Modale Sprachmodelle

084 - Modale Sprachmodelle

vor 5 Monaten
6 Minuten
0
0 0

Beschreibung

vor 5 Monaten

Multimodale Modelle sind keine Alleskönner, sondern clevere Teams
aus spezialisierten Systemen. Wir klären auf, wie Large Language
Models (LLMs), die von Natur aus für Text gemacht sind, Bilder
und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch
einen eingefrorenen Vision Encoder in
visuelle Tokens (Vektoren) umgewandelt. Die
eigentliche Magie liegt in der trainierbaren
Brücke, die diese Tokens für den Sprachexperten (das
LLM) übersetzt. Wir stellen die beiden Hauptansätze zur
Verbindung vor: den nicht-invasiven Ansatz (wie
bei LLaVA) und den invasiven Ansatz (wie beim
Flamingomodell), der dem LLM ermöglicht, permanent auf die
Bildinformationen zurückzugreifen. Zudem grenzen wir die
Perzeption (Encoding) klar von der Bildererzeugung
(Decoding/Diffusionsmodelle) ab.
15
15
Close