Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil2) ~ Der Weg nach KAI Podcast

Der Weg nach KAI – Episode 57: Das Geheimnis des Deep Learning:
Wenn Ockhams Rasiermesser die Transformer grokt
(Teil2)

Im zweiten Teil dieser Episode untersuchen wir den
Paradigmenwechsel im Deep Learning, bei dem große KI-Modelle
entgegen früherer Annahmen tatsächlich zu besserer
Generalisierungsfähigkeit führten. Grundlage dieser Entwicklung
ist die Transformer-Architektur (seit 2017), deren
„Attention“-Mechanismus Sprache im größeren Kontext
analysiert.
Große Modelle wie GPT-3 (2020) zeigen bei steigender
Parameterzahl überraschende Leistungssteigerungen, erklärt durch
das empirisch beobachtete „Double Descent“-Phänomen. Ein
verwandter Effekt ist das „Grokking“: KI-Modelle zeigen
plötzliches Verständnis nach langen Phasen ohne sichtbare
Lernfortschritte.
Ergänzt werden die Beschreibungen durch die
Lotterielos-Hypothese: In großen Netzen existieren potenziell
sehr leistungsfähige Subnetzwerke, die durch günstige
Initialisierung effizient lernen können. Techniken wie Pruning
ermöglichen es dann, diese zu extrahieren und die Effizienz zu
steigern.
Zuletzt betrachten wir den „Absolute Zero Reasoner“ (AZR),
vorgestellt im Mai 2025. Dieses Modell lernt ohne externe Daten
durch ein selbstgeneriertes Aufgaben-Lösungs-System in einer
codebasierten Umgebung. Erste Ergebnisse zeigen auch die
Fähigkeit zur domänenübergreifenden Generalisierung – eine
Eigenschaft, die einer künftigen Künstlichen Allgemeinen
Intelligenz abverlangt wird.

Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil2)

Beschreibung

Weitere Episoden

Clawdbot, Moltbook, Opus 4.6: Die digitale kambrische Explosion - Teil 2

Clawdbot, Moltbook, Opus 4.6: Die digitale kambrische Explosion - Teil 1

Wenn KI den Schreibtisch räumt: Neues Wirtschaftswunder oder gesellschaftlicher Crash? - Teil 2

Wenn KI den Schreibtisch räumt: Neues Wirtschaftswunder oder gesellschaftlicher Crash? - Teil 1

Der 'Geist' in der Maschine: Claude 4 Opus, KI-Ehrlichkeit und das digitale Bewusstsein (Teil 2)

Kommentare (0)

Abonnenten

Anmelden mit