KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?
38 Minuten

Beschreibung

vor 2 Jahren
ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT
ist dümmer als ein Grundschüler. Solche Meldungen findet man schon
mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr
unterschiedliche Abschneiden der großen Sprachmodelle in
standardisierten Tests liegt in der Art und Weise, wie das
vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und
Hartmut Gieselmann von der c‘t haben sich angeschaut, wie
Benchmarks diese Leistung messen und vergleichen - und wie
aussagegkräftig die Ergebnisse solcher Benchmarks sind.
heise.de/ki-update https://www.heise.de/ct
https://heise.de/-9288453
https://www.heise.de/thema/Kuenstliche-Intelligenz
https://the-decoder.de/ https://www.heiseplus.de/podcast

Kommentare (0)

Lade Inhalte...

Abonnenten

RobNaviGALL
Oldenburg
SHj6k9nj
München
Tron
Hanau
Turkan
Köln
MRiggs
Kandel
EwaldBittner
33689 Sennestadt, Bielefeld, Nordrhein-Westfalen
sgorissen
Troisdorf
5nxm0qlq
Ettlingen
Axolotll
München
taniavl
Wuppertal
Meneya
düsseldorf
gmarek
Köln
miwixyz
München
MSWMGPodcast
Düsseldorf
Pinkkaro
Berlin
15
15