Podcast
Podcaster
Beschreibung
vor 1 Monat
In Folge 137 des KI Gilde Podcasts dreht sich alles um die "Time
to First Token" – die entscheidende Wartezeit, bevor ein lokales
KI-Sprachmodell die erste Silbe generiert. Wir beleuchten, was in
der rechenintensiven Prefill-Phase passiert und warum der Aufbau
des sogenannten Key-Value-Caches als Gedächtnis des Modells bei
großen Kontexten schnell über 80 GB Arbeitsspeicher verschlingt.
Zudem vergleichen wir Hardware-Architekturen: Erfahre, warum
Nvidias isolierter Grafikspeicher bei riesigen Datenmengen durch
den PCI-Express-Bus zum Flaschenhals wird, während Apples Unified
Memory Architecture durch das Zero-Copy-Prinzip punktet und
Latenzen minimiert. Abschließend diskutieren wir, ob der
Key-Value-Cache bei zukünftigen Kontextfenstern von 10 Millionen
Wörtern eine technologische Sackgasse darstellt.
Weitere Episoden
29 Minuten
vor 2 Tagen
7 Minuten
vor 4 Tagen
7 Minuten
vor 6 Tagen
24 Minuten
vor 1 Woche
6 Minuten
vor 1 Woche
Kommentare (0)
Melde Dich an, um einen Kommentar zu schreiben.