#71: Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek ~ Data Science Deep Dive Podcast

In dieser Folge geht's um die Frage: Macht Größe von Large
Language Models (LLMs) bei Predictive Analytics wirklich einen
Unterschied? Wir vergleichen Open-Source-Modelle mit bis zu 70
Milliarden Parametern – und siehe da, das 8B-Modell schlägt das
große Schwergewicht. Außerdem berichten wir vom Finetuning auf
einer AWS-Maschine mit 8 A100-GPUs und den Herausforderungen in
Bezug auf die Reproduzierbarkeit. Auch das viel diskutierte
DeepSeek-Modell haben wir im Autopreis-Benchmark antreten lassen.
Und wie immer fragen wir uns: Was ist praktisch und was ist
overkill?

**Zusammenfassung**

Modellgröße ≠ bessere Prognosen: Das Llama-3.1-8B übertraf
das größere 70B-Modell bei der Fahrzeugpreisprognose

DeepSeek im Benchmark: Das chinesische Modell zeigt bei
größeren Trainingsmengen eine ähnlich gute Performance wie das
Llama-3.1-8B, ist bei kleinen Datensätzen aber schwächer

Finetuning mit Multi-GPU auf AWS: Für das 70B-Modell war ein
Setup mit 8 A100-GPUs nötig

Reproduzierbarkeit bleibt schwierig: Trotz Seed erzeugen
wiederholte Finetuning-Runs unterschiedliche Ergebnisse

Modellselektion empfohlen: Um zuverlässige Prognosen zu
erhalten, sollte aus mehreren Finetuning-Durchläufen das beste
Modell ausgewählt werden

CPU-Inferenz möglich, aber langsam: Im Vergleich zur GPU war
die Vorhersage auf der CPU ca. 30-mal langsamer, Quantisierung
könnte künftig Abhilfe schaffen

Ausblick auf TabPFN & Quantisierung: Kommende Beiträge
widmen sich Erfahrungen mit TabPFN und der praktischen Umsetzung
von quantisierten LLMs auf kleineren Maschinen

**Links**

[Begleitender Blogartikel] Predictive LLMs: Skalierung,
Reproduzierbarkeit & DeepSeek
https://www.inwt-statistics.de/blog/predictive-llms-skalierung-reproduzierbarkeit-und-deepseek

#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als
XGBoost?
https://inwt.podbean.com/e/50-predictive-analytics-mit-llms-ist-gpt35-besser-als-xgboost/

#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt
OpenAI und XGBoost bei Preisprognosen
https://inwt.podbean.com/e/64-predictive-llms-ubertreffen-open-source-modelle-jetzt-openai-und-xgboost-bei-preisprognosen/

vLLM Framework für schnelle Inferenz:
https://github.com/vllm-project/vllm?tab=readme-ov-file

torchtune Finetuning-Framework von PyTorch:
https://github.com/pytorch/torchtune

PyTorch Reproducibility:
https://pytorch.org/docs/stable/notes/randomness.html

Paper zur Reproduzierbarkeit von QLoRA-Finetuning: S. S.
Alahmari, L. O. Hall, P. R. Mouton and D. B. Goldgof,
"Repeatability of Fine-Tuning Large Language Models Illustrated
Using QLoRA," in IEEE Access, vol. 12, pp. 153221-153231, 2024,
doi: 10.1109/ACCESS.2024.3470850
https://ieeexplore.ieee.org/document/10700744

heise online: Komprimierte KI: Wie Quantisierung große
Sprachmodelle verkleinert von René Peinl
https://www.heise.de/hintergrund/Komprimierte-KI-Wie-Quantisierung-grosse-Sprachmodelle-verkleinert-10206033.html

deepseek-ai/DeepSeek-R1-Distill-Llama-8B auf Huggingface
https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B#6-how-to-run-locally

TabPFN: Hollmann, N., Müller, S., Purucker, L. et al.
Accurate predictions on small data with a tabular foundation
model. Nature 637, 319–326 (2025).
https://doi.org/10.1038/s41586-024-08328-6

Feedback, Fragen oder Themenwünsche gern an
podcast@inwt-statistics.de

#71: Predictive LLMs: Skalierung, Reproduzierbarkeit & DeepSeek

Beschreibung

Weitere Episoden

#95: GitOps: Deployments mit Ruhepuls

#94: [PAIQ4] Predictive AI Quarterly

#93: Bayesianische Statistik: Vorwissen und Daten kombinieren

#92: Anomaly Detection von Produktbildern mit ClickHouse

#91: Software ohne Entwickler*innen? Wie AI Agents unsere Arbeit neu definieren

Kommentare (0)

Abonnenten

Bleibe beim Podcasting auf dem Laufenden

Anmelden mit