119 - Token Caching

119 - Token Caching

6 Minuten

Beschreibung

vor 3 Wochen

In dieser Folge des KI-Gilde-Podcasts beleuchten wir das Thema
Prompt Caching und wie sich damit die Kosten für
LLM-Schnittstellen massiv senken lassen.


Wir erklären die technische Funktionsweise des sogenannten
KV-Cache, der rechenintensive Zwischenergebnisse speichert,
anstatt den Kontext jedes Mal neu zu verarbeiten. Erfahre, warum
der Zugriff auf den Cache bis zu 90 % günstiger
ist als reguläre Input-Token und wieso das erste "Schreiben" in
den Cache etwas mehr kostet. Zudem diskutieren wir die
unterschiedlichen Philosophien von Anbietern wie OpenAI
(automatisch) und Anthropic (explizite Steuerung) und nennen die
wichtigsten Regeln, um Caching erfolgreich in der Entwicklung
einzusetzen.

Weitere Episoden

128 - pencil.dev
14 Minuten
vor 6 Tagen
127 - BMAD
6 Minuten
vor 1 Woche
125 - multimodales RAG
6 Minuten
vor 1 Woche

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15