#96: Queer Data: Wie erfasst, bereinigt und analysiert man sensible Daten? ~ Data Science Deep Dive Podcast

Pünktlich zum Pride Month widmen sich Mira und Liel der Frage,
was bei der Arbeit mit sensiblen personenbezogenen Daten am
Beispiel queerer Daten zu beachten ist. Sie gehen die drei Phasen
Datenerfassung, -bereinigung und -analyse durch und zeigen, wie
schon die Wahl von Kategorien die Realität beeinflusst und wie
sich Diskriminierung in Daten und Algorithmen fortschreibt. Ein
Schwerpunkt liegt auf dem Umgang mit sehr kleinen Gruppen, für
die sich statistisch oft wenig ableiten lässt, und auf möglichen
Lösungen wie Oversampling oder qualitativen Methoden. Die Episode
macht deutlich, dass es keine einzelne richtige Lösung gibt,
sondern bewusste Entscheidungen und Mitdenken gefragt sind. Die
besprochenen Überlegungen gelten über Queerness hinaus auch für
andere Kategorien sozialer Ungleichheit und das Thema
Intersektionalität.

**Zusammenfassung**

Begriffsklärung: Was "queer" bedeutet, von der ursprünglichen
Beleidigung zur positiven Selbstbezeichnung, und der Bezug zu
LGBTQIA+

Datenerfassung: Was man erfasst, hängt vom Kontext ab (Sex in
der Medizin, Gender beim Verhalten, sexuelle Orientierung im
Marketing)

Kategorien sind nicht neutral: Sie prägen, wie Menschen sich
wahrnehmen, wie Umfragen ankommen und ob man Diskriminierung
überhaupt messen kann

Repräsentativität: Wie prüft man sie, wenn die Gruppengröße
unbekannt ist – etwa über bayesianische Ansätze mit Annahmen, die
durch Daten aktualisiert werden

Datenbereinigung: Schon wenige Fehleingaben verzerren kleine
Gruppen stark, wie das Beispiel der US-Zensusdaten zeigt

Umgang mit kleinen Gruppen: Optionen sind große Datenmengen,
Oversampling, qualitative Methoden oder zumindest transparentes
Berichten

Analyse: Algorithmen reproduzieren und skalieren bestehende
Biases und sind nicht automatisch neutral; das Weglassen
einzelner Merkmale löst das Problem nicht (Proxy-Variablen)

Fazit: Es gibt keine technische Patentlösung gegen
Diskriminierung – entscheidend sind bewusste Entscheidungen,
Mitdenken und der Blick auf Intersektionalität

**Links**

Buch "Queer Data" von Kevin Guyan:
https://kevinguyan.com/queer-data/

Buch "Rainbow Trap" von Kevin Guyan:
https://kevinguyan.com/rainbow-trap/

Buch "Data Feminism" von Catherine D'Ignazio und Lauren F.
Klein (MIT Press, frei verfügbar):
https://data-feminism.mitpress.mit.edu/

Episode #40: Sonderfolge: Frauen in Data Science und Tech mit
Catrin & Isa von Mind the Tech
https://www.podbean.com/eas/pb-ypy32-15747e6

Episode #93: Bayesianische Statistik: Vorwissen und Daten
kombinieren https://www.podbean.com/eas/pb-crgji-1ab8218

Fragen, Feedback oder Themenwünsche? Schreibt uns gern an:
podcast@inwt-statistics.de

#96: Queer Data: Wie erfasst, bereinigt und analysiert man sensible Daten?

Beschreibung

Weitere Episoden

#95: GitOps: Deployments mit Ruhepuls

#94: [PAIQ4] Predictive AI Quarterly

#93: Bayesianische Statistik: Vorwissen und Daten kombinieren

#92: Anomaly Detection von Produktbildern mit ClickHouse

#91: Software ohne Entwickler*innen? Wie AI Agents unsere Arbeit neu definieren

Kommentare (0)

Abonnenten

Bleibe beim Podcasting auf dem Laufenden

Anmelden mit