KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

KI-Update Deep-Dive: Wie zuverlässig sind Benchmarks für LLMs?

38 Minuten

Podcast

Podcaster

KI-Update – ein heise-Podcast

KI-Update – ein heise-Podcast

Technologie , Nachrichten , Gesellschaft & Kultur

Beschreibung

vor 2 Jahren

ChatGPT schneidet im Jura-Examen besser ab als Menschen – ChatGPT
ist dümmer als ein Grundschüler. Solche Meldungen findet man schon
mal am gleichen Tag. Wie kann das sein? Der Grund für dieses sehr
unterschiedliche Abschneiden der großen Sprachmodelle in
standardisierten Tests liegt in der Art und Weise, wie das
vermeintliche Wissen der KI gemessen wird. Andrea Trinkwalder und
Hartmut Gieselmann von der c‘t haben sich angeschaut, wie
Benchmarks diese Leistung messen und vergleichen - und wie
aussagegkräftig die Ergebnisse solcher Benchmarks sind.
heise.de/ki-update https://www.heise.de/ct
https://heise.de/-9288453
https://www.heise.de/thema/Kuenstliche-Intelligenz
https://the-decoder.de/ https://www.heiseplus.de/podcast

Weitere Episoden

KI-Update Deep-Dive: Wie Kirchen mit KI umgehen

KI-Update Deep-Dive: Wie Kirchen mit KI umgehen

31 Minuten

vor 2 Tagen

KI-Update kompakt: ChatGPT-Werbung, KI-Persönlichkeit, Chatbot Ello, Apple-Video-KI

KI-Update kompakt: ChatGPT-Werbung, KI-Persönlichkeit, Chatbot Ello, Apple-Video-KI

21 Minuten

vor 4 Tagen

KI-Update kompakt: 3 Jahre ChatGPT, KI-Gedächtnis, Programmieren, Genesis-Mission

KI-Update kompakt: 3 Jahre ChatGPT, KI-Gedächtnis, Programmieren, Genesis-Mission

14 Minuten

vor 6 Tagen

KI-Update kompakt: Arbeitsmarkt, Missbrauch von ChatGPT, Datenklau, KI-Label

KI-Update kompakt: Arbeitsmarkt, Missbrauch von ChatGPT, Datenklau, KI-Label

16 Minuten

vor 1 Woche

KI-Update kompakt: KI-Rechenzentren, Flux 2, KI-Framework MLX, OpenAI-Hardware

KI-Update kompakt: KI-Rechenzentren, Flux 2, KI-Framework MLX, OpenAI-Hardware

13 Minuten

vor 1 Woche

In Podcasts werben

Schalte jetzt Werbung in Podcasts.

Alle Episoden anzeigen

Kommentare (0)

Abonnenten

RobNaviGALL

Oldenburg

SHj6k9nj

München

Tron

Hanau

Turkan

Köln

MRiggs

Kandel

33689 Sennestadt, Bielefeld, Nordrhein-Westfalen

sgorissen

Troisdorf

5nxm0qlq

Ettlingen

Stadtgefuehl

Düren

Axolotll

München

Wuppertal

Meneya

düsseldorf

gmarek

Köln

miwixyz

München

ralfmoenkemoeller

ralfmoenkemoeller

Bielefeld

MSWMGPodcast

Düsseldorf

Pinkkaro

Berlin

Anmeldung

Hallo Podcast-Hörer! Melde dich hier an. Dich erwarten 1 Million abonnierbare Podcasts und alles, was Du rund um Podcasting wissen musst.

podcast

Anmelden mit

Konto erstellen

Anmeldedaten merken

Passwort vergessen?

oder