Das Geheimnis des Deep Learning: Wenn Ockhams Rasiermesser die Transformer grokt (Teil2)
25 Minuten
Podcast
Podcaster
Beschreibung
vor 6 Monaten
Der Weg nach KAI – Episode 57: Das Geheimnis des Deep Learning:
Wenn Ockhams Rasiermesser die Transformer grokt
(Teil2)
Im zweiten Teil dieser Episode untersuchen wir den
Paradigmenwechsel im Deep Learning, bei dem große KI-Modelle
entgegen früherer Annahmen tatsächlich zu besserer
Generalisierungsfähigkeit führten. Grundlage dieser Entwicklung
ist die Transformer-Architektur (seit 2017), deren
„Attention“-Mechanismus Sprache im größeren Kontext
analysiert.
Große Modelle wie GPT-3 (2020) zeigen bei steigender
Parameterzahl überraschende Leistungssteigerungen, erklärt durch
das empirisch beobachtete „Double Descent“-Phänomen. Ein
verwandter Effekt ist das „Grokking“: KI-Modelle zeigen
plötzliches Verständnis nach langen Phasen ohne sichtbare
Lernfortschritte.
Ergänzt werden die Beschreibungen durch die
Lotterielos-Hypothese: In großen Netzen existieren potenziell
sehr leistungsfähige Subnetzwerke, die durch günstige
Initialisierung effizient lernen können. Techniken wie Pruning
ermöglichen es dann, diese zu extrahieren und die Effizienz zu
steigern.
Zuletzt betrachten wir den „Absolute Zero Reasoner“ (AZR),
vorgestellt im Mai 2025. Dieses Modell lernt ohne externe Daten
durch ein selbstgeneriertes Aufgaben-Lösungs-System in einer
codebasierten Umgebung. Erste Ergebnisse zeigen auch die
Fähigkeit zur domänenübergreifenden Generalisierung – eine
Eigenschaft, die einer künftigen Künstlichen Allgemeinen
Intelligenz abverlangt wird.
Weitere Episoden
30 Minuten
vor 4 Monaten
35 Minuten
vor 4 Monaten
29 Minuten
vor 6 Monaten
23 Minuten
vor 6 Monaten
23 Minuten
vor 6 Monaten
In Podcasts werben
Kommentare (0)