Podcast
Podcaster
Beschreibung
vor 3 Wochen
Apple-Forscher haben frontier Reasoning-Modelle wie o3,
DeepSeek-R1 und Claude Thinking mit präzise steuerbaren Puzzles
getestet. Das Ergebnis ist überraschend: Es gibt drei klare
Leistungsregime – und ab einer bestimmten Komplexität brechen die
Modelle komplett ein. Noch auffälliger: Kurz vor dem totalen
Versagen reduzieren sie ihre Denk-Anstrengung, obwohl noch
reichlich Token-Budget vorhanden wäre.
In dieser Episode analysieren wir die Studie «The Illusion of
Thinking», erklären die Methodik hinter den kontrollierbaren
Puzzles, diskutieren die Kritik und zeigen, was die Ergebnisse
für alle bedeuten, die mit fortschrittlichen KI-Systemen arbeiten
oder deren tatsächliche Reasoning-Fähigkeiten besser verstehen
wollen.
Weitere Episoden
2 Minuten
vor 18 Stunden
14 Minuten
vor 3 Tagen
16 Minuten
vor 5 Tagen
27 Minuten
vor 4 Wochen
21 Minuten
vor 4 Wochen
Kommentare (0)
Melde Dich an, um einen Kommentar zu schreiben.