119 - Token Caching
6 Minuten
Podcast
Podcaster
Beschreibung
vor 3 Wochen
In dieser Folge des KI-Gilde-Podcasts beleuchten wir das Thema
Prompt Caching und wie sich damit die Kosten für
LLM-Schnittstellen massiv senken lassen.
Wir erklären die technische Funktionsweise des sogenannten
KV-Cache, der rechenintensive Zwischenergebnisse speichert,
anstatt den Kontext jedes Mal neu zu verarbeiten. Erfahre, warum
der Zugriff auf den Cache bis zu 90 % günstiger
ist als reguläre Input-Token und wieso das erste "Schreiben" in
den Cache etwas mehr kostet. Zudem diskutieren wir die
unterschiedlichen Philosophien von Anbietern wie OpenAI
(automatisch) und Anthropic (explizite Steuerung) und nennen die
wichtigsten Regeln, um Caching erfolgreich in der Entwicklung
einzusetzen.
Weitere Episoden
23 Minuten
vor 4 Tagen
14 Minuten
vor 6 Tagen
6 Minuten
vor 1 Woche
21 Minuten
vor 1 Woche
6 Minuten
vor 1 Woche
In Podcasts werben
Kommentare (0)