119 - Token Caching

vor 2 Monaten

6 Minuten

0 0

Podcast

Podcaster

Prompt und Antwort

Technologie

Beschreibung

vor 2 Monaten

In dieser Folge des KI-Gilde-Podcasts beleuchten wir das Thema
Prompt Caching und wie sich damit die Kosten für
LLM-Schnittstellen massiv senken lassen.

Wir erklären die technische Funktionsweise des sogenannten
KV-Cache, der rechenintensive Zwischenergebnisse speichert,
anstatt den Kontext jedes Mal neu zu verarbeiten. Erfahre, warum
der Zugriff auf den Cache bis zu 90 % günstiger
ist als reguläre Input-Token und wieso das erste "Schreiben" in
den Cache etwas mehr kostet. Zudem diskutieren wir die
unterschiedlichen Philosophien von Anbietern wie OpenAI
(automatisch) und Anthropic (explizite Steuerung) und nennen die
wichtigsten Regeln, um Caching erfolgreich in der Entwicklung
einzusetzen.