Data Science

Data Science

Data Science
1 Stunde 41 Minuten

Beschreibung

vor 1 Woche
Data Science (click here to comment) 8. Dezember 2025, Jochen

️ Zu Gast: Mira – Data Scientist, Geschäftsführerin einer
Berliner Data-Science-Beratung und Host des Podcasts Data Science
Deep Dive.


Dominik und Jochen sprechen mit ihr darüber, was Data Science in
der Praxis heute bedeutet: weniger Machine-Learning-Magie, mehr
solides Datenhandwerk – von der Problemanalyse über Feature
Engineering bis hin zu Deployment, Monitoring und Drift. An
konkreten Projekten (u. a. einer Luftschadstoff-Prognose für die
Berliner Senatsverwaltung) wird klar, wo die echten
Herausforderungen liegen – und wo die spannendsten Hebel sind.


In dieser Episode:


Was "Data Science" eigentlich umfasst – Skills, Rollen und
warum man dafür nicht unbedingt Informatik studiert haben muss

CRISP-DM in der Praxis – vom Use-Case bis Wartung und Drift,
und warum die Modellierung oft nur ein kleiner Teil ist

️ Tooling & Architektur – Pandas, Scikit-Learn, Polars,
Kubernetes, ClickHouse, REST-API, MLflow und Alerting mit Redash

XGBoost vs. TabPFN – warum Gradient Boosting immer noch der
Klassiker ist und was Transformer-Modelle für tabulare Daten
können

Feature Engineering & Interpretierbarkeit – mit SHAP
verstehen, was das Modell gelernt hat

Performance in der Realität – Spark vs. Polars, Sampling,
vektorisierte Operationen und warum "verteilen" nicht automatisch
schneller heißt

LLMs für Vorhersagen – Experimente mit Gebrauchtwagenpreisen
und warum Finetuning hier Sinn macht



Unsere Picks:


Mira: Pandas UDFs für Parallelisierung in Spark – von Stunden
auf Minuten

Dominik: just – Hynek erklärt, warum just der bessere
Taskrunner ist als make

Jochen: ccusage / ccusage for codex – Token-Kosten im Blick
behalten bei claude code / codex

Shownotes

Unsere E-Mail für Fragen, Anregungen & Kommentare:
hallo@python-podcast.de
Data Science

Data Science Beratung inwt

Cross-industry standard process for data mining CRISP-DM

Visualisierungen: ggplot2 / Redash

pandas / polars / PySpark

mlflow

ClickHouse

XGBoost / CatBoost / LightGBM / TebPFN / SHAP

ibis / arrow

Picks

pandas_udf

uv: Making Local Python Workflows FAST and BORING in 2025 |
Starts at the justfile part..

ccusage / ccusage for codex

ElevenLabs / NobebookLM | Um sich Podcasts zu generieren..

Data Science Deep Dive

Kommentare (0)

Lade Inhalte...

Abonnenten

schomi61
Papenburg
shessler
Dresden
Ina1310
Neuss
mszivatz
Hornstein
15
15