176 - Praxis mit dem DGX Spark

176 - Praxis mit dem DGX Spark

vor 19 Stunden
5 Minuten
0
0 0 0

Beschreibung

vor 19 Stunden

Praxis mit dem DGX Spark: Komplette KI-Infrastruktur im
StresstestIn dieser Folge des KI Gilde Podcasts teilen
wir unsere harten Praxiswerte beim parallelen, lokalen Betrieb
einer vollständigen KI-Infrastruktur auf dem DGX Spark.Die
wichtigsten Erkenntnisse der Folge:





vLLM statt llama.cpp: Warum vLLM bei der
parallelen Verarbeitung deutlich mehr Token herausholt, der
vorab allokierte KV-Cache aber schnell zur Speicherfalle
wird.




Crash-Gefahr durch RAM-Limits: Wie große
Kontextfenster den Server unvermittelt zum Absturz bringen
können und warum wir einen "Wächter" für den
Arbeitsspeicher einrichten mussten.




Modell-Management mit LiteLLM: Der
erfolgreiche Parallelbetrieb von großen Sprachmodellen,
Rerankern sowie Text-zu-Sprache (TTS) und Sprache-zu-Text
(STT).




Die Reasoning-Falle: Warum es schädlich
ist, wenn Modelle ihre "inneren Gedanken" an das
Audiomodell weitergeben und wie wir das Problem gelöst
haben.




Unser Benchmark-Sieger: Warum das Modell
"Qvent 3.6" durch seine starke Kombination aus
Kontextverarbeitung und Token-Generierung unser absoluter
Allrounder geworden ist.



Weitere Episoden

175 - Open Notebook
6 Minuten
vor 2 Tagen
174 - Diffusion Gemma
6 Minuten
vor 5 Tagen
173 - Fable 5
6 Minuten
vor 1 Woche
172 - Agent World
6 Minuten
vor 1 Woche
171 - Hermes Desktop
7 Minuten
vor 1 Woche
15
15
Close