084 - Modale Sprachmodelle

084 - Modale Sprachmodelle

6 Minuten

Beschreibung

vor 3 Monaten

Multimodale Modelle sind keine Alleskönner, sondern clevere Teams
aus spezialisierten Systemen. Wir klären auf, wie Large Language
Models (LLMs), die von Natur aus für Text gemacht sind, Bilder
und Dokumente verstehen lernen. Dazu wird ein Bild zunächst durch
einen eingefrorenen Vision Encoder in
visuelle Tokens (Vektoren) umgewandelt. Die
eigentliche Magie liegt in der trainierbaren
Brücke, die diese Tokens für den Sprachexperten (das
LLM) übersetzt. Wir stellen die beiden Hauptansätze zur
Verbindung vor: den nicht-invasiven Ansatz (wie
bei LLaVA) und den invasiven Ansatz (wie beim
Flamingomodell), der dem LLM ermöglicht, permanent auf die
Bildinformationen zurückzugreifen. Zudem grenzen wir die
Perzeption (Encoding) klar von der Bildererzeugung
(Decoding/Diffusionsmodelle) ab.

Weitere Episoden

128 - pencil.dev
14 Minuten
vor 6 Tagen
127 - BMAD
6 Minuten
vor 1 Woche
125 - multimodales RAG
6 Minuten
vor 1 Woche

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15