084 - Modale Sprachmodelle

084 - Modale Sprachmodelle

6 Minuten

Beschreibung

vor 3 Wochen

Multimodale Modelle sind keine Alleskönner, sondern clevere Teams
aus spezialisierten Systemen. Wir klären auf, wie Large Language
Models (LLMs), die von Natur aus für Text gemacht sind, Bilder
und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch
einen eingefrorenen Vision Encoder in
visuelle Tokens (Vektoren) umgewandelt. Die
eigentliche Magie liegt in der trainierbaren
Brücke, die diese Tokens für den Sprachexperten (das
LLM) übersetzt. Wir stellen die beiden Hauptansätze zur
Verbindung vor: den nicht-invasiven Ansatz (wie
bei LLaVA) und den invasiven Ansatz (wie beim
Flamingomodell), der dem LLM ermöglicht, permanent auf die
Bildinformationen zurückzugreifen. Zudem grenzen wir die
Perzeption (Encoding) klar von der Bildererzeugung
(Decoding/Diffusionsmodelle) ab.

Weitere Episoden

093 - Jahresrückblick: März 2025
6 Minuten
vor 21 Stunden
090 - NVIDIA vs TPUs
6 Minuten
vor 1 Woche
089 - Opus 4.5
7 Minuten
vor 1 Woche

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15