137 - Time to first Token

vor 1 Monat

7 Minuten

0 0

Podcast

Podcaster

Prompt und Antwort

Technologie

Beschreibung

vor 1 Monat

In Folge 137 des KI Gilde Podcasts dreht sich alles um die "Time
to First Token" – die entscheidende Wartezeit, bevor ein lokales
KI-Sprachmodell die erste Silbe generiert. Wir beleuchten, was in
der rechenintensiven Prefill-Phase passiert und warum der Aufbau
des sogenannten Key-Value-Caches als Gedächtnis des Modells bei
großen Kontexten schnell über 80 GB Arbeitsspeicher verschlingt.

Zudem vergleichen wir Hardware-Architekturen: Erfahre, warum
Nvidias isolierter Grafikspeicher bei riesigen Datenmengen durch
den PCI-Express-Bus zum Flaschenhals wird, während Apples Unified
Memory Architecture durch das Zero-Copy-Prinzip punktet und
Latenzen minimiert. Abschließend diskutieren wir, ob der
Key-Value-Cache bei zukünftigen Kontextfenstern von 10 Millionen
Wörtern eine technologische Sackgasse darstellt.