Site Reliability Engineering (SRE) mit Andy Grunwald vom Engineering Kiosk #81 ~ Einfach Komplex

SRE (Site Reliability Engineering) ist ein Ansatz, bei dem
Softwareentwickler aktiv die Verantwortung für Systemstabilität
und Skalierbarkeit übernehmen. Gast Andy Grunwald (Engineering
Manager bei Cloudflare und Co-Host des "Engineering Kiosk")
erklärt den Paradigmenwechsel: Statt wie klassische Ops-Teams
primär reaktiv auf Ausfälle zu reagieren, gestalten SREs Systeme
von Grund auf resilient.

Zentrale Elemente sind Service Level Objectives (SLOs), die
festlegen, wie stabil ein Service sein muss, und Error Budgets,
die akzeptable Ausfallzeiten definieren. Bei Problemen folgt SRE
einem strukturierten Incident-Management-Prozess.

Der kulturelle Aspekt ist entscheidend: SRE verschiebt den Fokus
von kurzfristiger Fehlerbehebung hin zu langfristiger
Systemstabilität – etwa durch Automatisierung, Monitoring und
gezielte Resilienztests (Chaos Engineering). Letztlich geht es
darum, Betrieb und Entwicklung näher zusammenzubringen, ohne in
klassische "Wir gegen die Ops"-Muster zu verfallen.

------

Korrekturen zur Folge
Beim Thema Incidents wird gesagt, dass die Metrik MTRR heißt.
Sie heißt jedoch MTTR.
Siehe https://de.wikipedia.org/wiki/Mean_Time_To_RecoverBei
der Story mit dem Flugzeug und den Löchern im Flügel sprechen wir
vom "Confirmation Bias". Tatsächlich handelt es sich um das
"Survivorship Bias".
Siehe https://en.wikipedia.org/wiki/Survivorship_bias

------

Links zur Folge

https://andygrunwald.com/blog/my-all-time-high-articles/

The Phoenix Project
https://www.amazon.de/Phoenix-Project-DevOps-Helping-Business/dp/0988262592

The Unicorn Project
https://www.amazon.de/Unicorn-Project-Developers-Disruption-Thriving/dp/1942788762

Google SRE books: https://sre.google/books/

Exponential Backoff And Jitter
https://aws.amazon.com/de/blogs/architecture/exponential-backoff-and-jitter/

SRE fundamentals: SLIs, SLAs and SLOs

https://cloud.google.com/blog/products/devops-sre/sre-fundamentals-slis-slas-and-slos?hl=en

Pagerduty Incident Response https://response.pagerduty.com/

Engineering Kiosk Podcasts: ⁠https://engineeringkiosk.dev/

Andy Grunwald LinkedIn
https://www.linkedin.com/in/andy-grunwald-09aa265a/

------

Einfach Komplex ist ein Podcast von Heisenware. Alle
Infos und Kontakte findest du im Linktree:
⁠⁠https://linktr.ee/heisenware⁠⁠

------

Andy, Burkhard & Gerrit sprechen heute über:

(00:00:00) Intro Andy

(00:03:00) Entstehung, Einordnung und Abgrenzung zu DevOps

(00:27:30) SRE in der Praxis

(00:42:30) Service Level Agreements und Verfügbarkeit

(00:54:30) Kultur, Ausfälle und Übungen für den Notfall

(01:08:30) SRE Summary

(01:12:30) Weitere Ressourcen und Kontakt Andy

Site Reliability Engineering (SRE) mit Andy Grunwald vom Engineering Kiosk #81

Beschreibung

Weitere Episoden

Unified Namespace mit Stefan Hermann von Cybus #114

Cyber Resilience Act (CRA) mit Benjamin Becker von abl solutions #113

Model Context Protocol (MCP) #112

Virtualisierung: Virtuelle Maschinen, Container und Architekturen im Praxiseinsatz #111

Rust: Konzepte, Architektur und Einsatzgebiete mit Marcel Koch #110

Kommentare (0)

Abonnenten

Bleibe beim Podcasting auf dem Laufenden

Anmelden mit