Synthetische Daten: Was macht sie aus und wie kommen sie im KI-Training zum Einsatz?

Synthetische Daten: Was macht sie aus und wie kommen sie im KI-Training zum Einsatz?

vor 2 Wochen
Mit Sören Pirk von der Christian-Albrechts-Universität zu Kiel
53 Minuten
0
0 0 0

Beschreibung

vor 2 Wochen
Um KI-Modelle zu trainieren, die sich im realen Einsatz bewähren,
braucht man hochwertige Daten, und davon möglichst viele. In allen
Branchen, Arbeitsfeldern und Umgebungen ist der Einsatz von KI im
Prinzip möglich, es wird experimentiert, ausprobiert und auch
wieder verworfen. In manchen Bereichen, etwa der Medizin oder im
Katastrophenschutz, setzt man große Hoffnungen in KI, wobei gerade
dort die Trainingsdatenlage an vielen Stellen dünn ist, und vor
allem: wo schwere Fehler vermieden werden sollen. Für etliche
Fragestellungen liegen schlicht zu wenige Trainingsdaten vor, um
zuverlässige und robuste KI-Systemen zu entwickeln. Dabei spielen
nicht einmal Datenschutz und weitere Zugangsbeschränkungen eine
entscheidende Rolle: Daten für das KI-Training zu erheben und
nutzbar zu machen, kann sehr aufwendig und teuer sein. Synthetische
Daten sind hier ein wichtiges Stichwort. Sie sollen schnell und
kostengünstig Trainingsdatensätze für KI erzeugen können, wo
„echte“ Daten fehlen. Aber geht das so einfach? Wie weit ist die
Forschung in diesem Feld heute? Und was gilt es zu bedenken, wenn
man sich auf diesen Weg begibt? Sören Pirk ist Professor für
Informatik an der Christian-Albrechts-Universität zu Kiel und
leitet dort das Visual Computing and Artificial Intelligence (VCAI)
lab. Der Experte für generative KI und synthetische Daten erklärt
im Digitalgespräch, worum es sich bei synthetischen Daten handelt,
wie man sie herstellt und wofür sie gebraucht werden. Er beleuchtet
spannende Forschungsfragen und beschreibt die größten
Herausforderungen im Umgang mit diesem Datentyp. Mit den
Gastgeberinnen Marlene Görger und Petra Gehring diskutiert Pirk, wo
Grenzen der Anwendbarkeit liegen, was „gute“ Datensätze auszeichnet
, wie sich Regeln und Umgangsformen in diesem Feld entwickeln – und
wie die Community nun, wo synthetische Daten so viel Aufmerksamkeit
bekommen, auf Daten schaut, die nicht synthetisch sind. Link zum
Originalbeitrag:
https://zevedi.de/digitalgespraech-078-soeren-pirk/ Link zur
Webseite des Visual Computing and Artificial Intelligence (VCAI)
lab: https://www.vcai-lab.org/ Link zur Webseite des Projekts
„WildfireTwins“: https://www.wildfiretwins.org/
15
15
Close