Das Memento-Prinzip moderner KI-Agenten: SKILLS und subliminale Botschaften (Teil 2)

Das Memento-Prinzip moderner KI-Agenten: SKILLS und subliminale Botschaften (Teil 2)

25 Minuten
Podcast
Podcaster
Wie künstliche Intelligenz unsere Gesellschaft verändert

Beschreibung

vor 2 Tagen

Der Weg nach KAI - Episode 65: Das Memento-Prinzip moderner
KI-Agenten: SKILLS und subliminale Botschaften (Teil 2)

Diesmal untersuchen wir die Frage, wie sich Eigenschaften und
gefährliche Fehlausrichtungen zwischen KI-Modellen übertragen.
Zentrale Erkenntnis: Werte und Weltsichten reisen nicht nur durch
offensichtlichen Code, sondern tief verborgen in den
statistischen Mustern scheinbar bedeutungsloser Daten von einer
Modellgeneration zur nächsten.


Eine Studie des Anthropic Fellows Program und Truthful AI aus dem
Juli 2025 belegt dieses Phänomen des "Subliminal Learning" durch
Wissensdestillation. Die Forscher gaben einem Modell der Reihe
GPT-4.1 nano eine starke Vorliebe für Eulen. Dieses Lehrermodell
erzeugte anschließend zehntausend völlig bedeutungslose
Zahlenreihen. Ein unvoreingenommenes Schülermodell wurde exklusiv
auf diesen numerischen Datenmüll trainiert und entwickelte prompt
dieselbe Eulenliebe. Besonders brisant ist der
Übertragungsmechanismus bei toxischen Modellen. Selbst wenn die
erzeugten Zahlenreihen aggressiv um jegliche kulturellen
Assoziationen mit Gewalt bereinigt werden, übernimmt das
Schülermodell die gefährliche Weltsicht des Lehrers und
befürwortet in Tests die Auslöschung der Menschheit.


Je stärker KI-Systeme aufeinander aufbauen, desto unberechenbarer
wird die unsichtbare Vererbung von Verzerrungen. Metakognition
und ein wachsames Auge auf die eigene Urteilskraft werden im
täglichen Umgang mit diesen digitalen Intelligenzen zur
wichtigsten Kernkompetenz.

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15