Podcast
Podcaster
Beschreibung
vor 1 Jahr
Der Weg nach KAI – Episode 57: Das Geheimnis des Deep Learning:
Wenn Ockhams Rasiermesser die Transformer grokt
(Teil2)
Im zweiten Teil dieser Episode untersuchen wir den
Paradigmenwechsel im Deep Learning, bei dem große KI-Modelle
entgegen früherer Annahmen tatsächlich zu besserer
Generalisierungsfähigkeit führten. Grundlage dieser Entwicklung
ist die Transformer-Architektur (seit 2017), deren
„Attention“-Mechanismus Sprache im größeren Kontext
analysiert.
Große Modelle wie GPT-3 (2020) zeigen bei steigender
Parameterzahl überraschende Leistungssteigerungen, erklärt durch
das empirisch beobachtete „Double Descent“-Phänomen. Ein
verwandter Effekt ist das „Grokking“: KI-Modelle zeigen
plötzliches Verständnis nach langen Phasen ohne sichtbare
Lernfortschritte.
Ergänzt werden die Beschreibungen durch die
Lotterielos-Hypothese: In großen Netzen existieren potenziell
sehr leistungsfähige Subnetzwerke, die durch günstige
Initialisierung effizient lernen können. Techniken wie Pruning
ermöglichen es dann, diese zu extrahieren und die Effizienz zu
steigern.
Zuletzt betrachten wir den „Absolute Zero Reasoner“ (AZR),
vorgestellt im Mai 2025. Dieses Modell lernt ohne externe Daten
durch ein selbstgeneriertes Aufgaben-Lösungs-System in einer
codebasierten Umgebung. Erste Ergebnisse zeigen auch die
Fähigkeit zur domänenübergreifenden Generalisierung – eine
Eigenschaft, die einer künftigen Künstlichen Allgemeinen
Intelligenz abverlangt wird.
Weitere Episoden
Rekursive Selbstverbesserung und hochintelligente Kartoffeln: Die KI-Modelle der nächsten Generation
33 Minuten
vor 2 Monaten
36 Minuten
vor 2 Monaten
25 Minuten
vor 2 Monaten
29 Minuten
vor 2 Monaten
Kommentare (0)
Melde Dich an, um einen Kommentar zu schreiben.