Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?

Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?

37 Minuten

Beschreibung

vor 2 Wochen

In der heutigen Sendung versuchen wir rauszufinden, ob man sich
auf die öffentlichen Benchmarks zum Testen und Vergleichen von
Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum
Trainieren verwendet werden. Hierbei handelt es sich um das
Benchmark Leakage. Hören Sie rein. 

Wir sprechen vor allem über das Paper: Benchmarking Benchmark
Leakage in Large Language Models https://arxiv.org/abs/2404.18824


Support the Show.

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15
:
: