Podcast
Podcaster
Beschreibung
vor 1 Woche
Data Science (click here to comment) 8. Dezember 2025, Jochen
️ Zu Gast: Mira – Data Scientist, Geschäftsführerin einer
Berliner Data-Science-Beratung und Host des Podcasts Data Science
Deep Dive.
Dominik und Jochen sprechen mit ihr darüber, was Data Science in
der Praxis heute bedeutet: weniger Machine-Learning-Magie, mehr
solides Datenhandwerk – von der Problemanalyse über Feature
Engineering bis hin zu Deployment, Monitoring und Drift. An
konkreten Projekten (u. a. einer Luftschadstoff-Prognose für die
Berliner Senatsverwaltung) wird klar, wo die echten
Herausforderungen liegen – und wo die spannendsten Hebel sind.
In dieser Episode:
Was "Data Science" eigentlich umfasst – Skills, Rollen und
warum man dafür nicht unbedingt Informatik studiert haben muss
CRISP-DM in der Praxis – vom Use-Case bis Wartung und Drift,
und warum die Modellierung oft nur ein kleiner Teil ist
️ Tooling & Architektur – Pandas, Scikit-Learn, Polars,
Kubernetes, ClickHouse, REST-API, MLflow und Alerting mit Redash
XGBoost vs. TabPFN – warum Gradient Boosting immer noch der
Klassiker ist und was Transformer-Modelle für tabulare Daten
können
Feature Engineering & Interpretierbarkeit – mit SHAP
verstehen, was das Modell gelernt hat
Performance in der Realität – Spark vs. Polars, Sampling,
vektorisierte Operationen und warum "verteilen" nicht automatisch
schneller heißt
LLMs für Vorhersagen – Experimente mit Gebrauchtwagenpreisen
und warum Finetuning hier Sinn macht
Unsere Picks:
Mira: Pandas UDFs für Parallelisierung in Spark – von Stunden
auf Minuten
Dominik: just – Hynek erklärt, warum just der bessere
Taskrunner ist als make
Jochen: ccusage / ccusage for codex – Token-Kosten im Blick
behalten bei claude code / codex
Shownotes
Unsere E-Mail für Fragen, Anregungen & Kommentare:
hallo@python-podcast.de
Data Science
Data Science Beratung inwt
Cross-industry standard process for data mining CRISP-DM
Visualisierungen: ggplot2 / Redash
pandas / polars / PySpark
mlflow
ClickHouse
XGBoost / CatBoost / LightGBM / TebPFN / SHAP
ibis / arrow
Picks
pandas_udf
uv: Making Local Python Workflows FAST and BORING in 2025 |
Starts at the justfile part..
ccusage / ccusage for codex
ElevenLabs / NobebookLM | Um sich Podcasts zu generieren..
Data Science Deep Dive
️ Zu Gast: Mira – Data Scientist, Geschäftsführerin einer
Berliner Data-Science-Beratung und Host des Podcasts Data Science
Deep Dive.
Dominik und Jochen sprechen mit ihr darüber, was Data Science in
der Praxis heute bedeutet: weniger Machine-Learning-Magie, mehr
solides Datenhandwerk – von der Problemanalyse über Feature
Engineering bis hin zu Deployment, Monitoring und Drift. An
konkreten Projekten (u. a. einer Luftschadstoff-Prognose für die
Berliner Senatsverwaltung) wird klar, wo die echten
Herausforderungen liegen – und wo die spannendsten Hebel sind.
In dieser Episode:
Was "Data Science" eigentlich umfasst – Skills, Rollen und
warum man dafür nicht unbedingt Informatik studiert haben muss
CRISP-DM in der Praxis – vom Use-Case bis Wartung und Drift,
und warum die Modellierung oft nur ein kleiner Teil ist
️ Tooling & Architektur – Pandas, Scikit-Learn, Polars,
Kubernetes, ClickHouse, REST-API, MLflow und Alerting mit Redash
XGBoost vs. TabPFN – warum Gradient Boosting immer noch der
Klassiker ist und was Transformer-Modelle für tabulare Daten
können
Feature Engineering & Interpretierbarkeit – mit SHAP
verstehen, was das Modell gelernt hat
Performance in der Realität – Spark vs. Polars, Sampling,
vektorisierte Operationen und warum "verteilen" nicht automatisch
schneller heißt
LLMs für Vorhersagen – Experimente mit Gebrauchtwagenpreisen
und warum Finetuning hier Sinn macht
Unsere Picks:
Mira: Pandas UDFs für Parallelisierung in Spark – von Stunden
auf Minuten
Dominik: just – Hynek erklärt, warum just der bessere
Taskrunner ist als make
Jochen: ccusage / ccusage for codex – Token-Kosten im Blick
behalten bei claude code / codex
Shownotes
Unsere E-Mail für Fragen, Anregungen & Kommentare:
hallo@python-podcast.de
Data Science
Data Science Beratung inwt
Cross-industry standard process for data mining CRISP-DM
Visualisierungen: ggplot2 / Redash
pandas / polars / PySpark
mlflow
ClickHouse
XGBoost / CatBoost / LightGBM / TebPFN / SHAP
ibis / arrow
Picks
pandas_udf
uv: Making Local Python Workflows FAST and BORING in 2025 |
Starts at the justfile part..
ccusage / ccusage for codex
ElevenLabs / NobebookLM | Um sich Podcasts zu generieren..
Data Science Deep Dive
Weitere Episoden
1 Stunde 29 Minuten
vor 5 Monaten
43 Minuten
vor 7 Monaten
1 Stunde 6 Minuten
vor 7 Monaten
36 Minuten
vor 7 Monaten
1 Stunde 50 Minuten
vor 7 Monaten
In Podcasts werben
Kommentare (0)