Podcast
Podcaster
Beschreibung
vor 2 Monaten
In dieser Folge des KI-Gilde-Podcasts beleuchten wir das Thema
Prompt Caching und wie sich damit die Kosten für
LLM-Schnittstellen massiv senken lassen.
Wir erklären die technische Funktionsweise des sogenannten
KV-Cache, der rechenintensive Zwischenergebnisse speichert,
anstatt den Kontext jedes Mal neu zu verarbeiten. Erfahre, warum
der Zugriff auf den Cache bis zu 90 % günstiger
ist als reguläre Input-Token und wieso das erste "Schreiben" in
den Cache etwas mehr kostet. Zudem diskutieren wir die
unterschiedlichen Philosophien von Anbietern wie OpenAI
(automatisch) und Anthropic (explizite Steuerung) und nennen die
wichtigsten Regeln, um Caching erfolgreich in der Entwicklung
einzusetzen.
Weitere Episoden
29 Minuten
vor 2 Tagen
7 Minuten
vor 4 Tagen
7 Minuten
vor 6 Tagen
24 Minuten
vor 1 Woche
6 Minuten
vor 1 Woche
Kommentare (0)
Melde Dich an, um einen Kommentar zu schreiben.