071 - LLMs vergiften

vor 6 Monaten

6 Minuten

0 0

Podcast

Podcaster

Prompt und Antwort

Technologie

Beschreibung

vor 6 Monaten

Heute packen wir ein heiß diskutiertes Thema an:
Poisoning Attacks (Datenvergiftung) auf große
Sprachmodelle (LLMs).Bisher schien es fast unmöglich, riesige
Modelle wie GPT-4 oder LLaMA anzugreifen. Neuere Experimente
zeigen jedoch, dass nicht der Prozentsatz der manipulierten Daten
entscheidend ist, sondern die absolute Zahl.

Schon etwa 250 manipulierte Dokumente könnten
ausreichen, um ein Modell zu kompromittieren, unabhängig von
seiner Größe oder der Menge der sauberen Trainingsdaten.

Wir diskutieren das beunruhigende Missbrauchspotenzial. Angreifer
könnten über Webarchive schädliche Befehle (wie den Linux-Befehl
„RM- RF“, alles löschen) in Trainingsdaten einschleusen. Kritisch
wird es, wenn diese manipulierten LLMs später Zugriff auf echte
Systeme erhalten.