Site Reliability Engineering (SRE) mit Andy Grunwald vom Engineering Kiosk #81
1 Stunde 17 Minuten
Podcast
Podcaster
Beschreibung
vor 7 Monaten
SRE (Site Reliability Engineering) ist ein Ansatz, bei dem
Softwareentwickler aktiv die Verantwortung für Systemstabilität
und Skalierbarkeit übernehmen. Gast Andy Grunwald (Engineering
Manager bei Cloudflare und Co-Host des "Engineering Kiosk")
erklärt den Paradigmenwechsel: Statt wie klassische Ops-Teams
primär reaktiv auf Ausfälle zu reagieren, gestalten SREs Systeme
von Grund auf resilient.
Zentrale Elemente sind Service Level Objectives (SLOs), die
festlegen, wie stabil ein Service sein muss, und Error Budgets,
die akzeptable Ausfallzeiten definieren. Bei Problemen folgt SRE
einem strukturierten Incident-Management-Prozess.
Der kulturelle Aspekt ist entscheidend: SRE verschiebt den Fokus
von kurzfristiger Fehlerbehebung hin zu langfristiger
Systemstabilität – etwa durch Automatisierung, Monitoring und
gezielte Resilienztests (Chaos Engineering). Letztlich geht es
darum, Betrieb und Entwicklung näher zusammenzubringen, ohne in
klassische "Wir gegen die Ops"-Muster zu verfallen.
------
Korrekturen zur Folge
Beim Thema Incidents wird gesagt, dass die Metrik MTRR heißt.
Sie heißt jedoch MTTR.
Siehe https://de.wikipedia.org/wiki/Mean_Time_To_RecoverBei
der Story mit dem Flugzeug und den Löchern im Flügel sprechen wir
vom "Confirmation Bias". Tatsächlich handelt es sich um das
"Survivorship Bias".
Siehe https://en.wikipedia.org/wiki/Survivorship_bias
------
Links zur Folge
https://andygrunwald.com/blog/my-all-time-high-articles/
The Phoenix Project
https://www.amazon.de/Phoenix-Project-DevOps-Helping-Business/dp/0988262592
The Unicorn Project
https://www.amazon.de/Unicorn-Project-Developers-Disruption-Thriving/dp/1942788762
Google SRE books: https://sre.google/books/
Exponential Backoff And Jitter
https://aws.amazon.com/de/blogs/architecture/exponential-backoff-and-jitter/
SRE fundamentals: SLIs, SLAs and SLOs
https://cloud.google.com/blog/products/devops-sre/sre-fundamentals-slis-slas-and-slos?hl=en
Pagerduty Incident Response https://response.pagerduty.com/
Engineering Kiosk Podcasts: https://engineeringkiosk.dev/
Andy Grunwald LinkedIn
https://www.linkedin.com/in/andy-grunwald-09aa265a/
------
Einfach Komplex ist ein Podcast von Heisenware. Alle
Infos und Kontakte findest du im Linktree:
https://linktr.ee/heisenware
------
Andy, Burkhard & Gerrit sprechen heute über:
(00:00:00) Intro Andy
(00:03:00) Entstehung, Einordnung und Abgrenzung zu DevOps
(00:27:30) SRE in der Praxis
(00:42:30) Service Level Agreements und Verfügbarkeit
(00:54:30) Kultur, Ausfälle und Übungen für den Notfall
(01:08:30) SRE Summary
(01:12:30) Weitere Ressourcen und Kontakt Andy
Weitere Episoden
45 Minuten
vor 4 Tagen
44 Minuten
vor 2 Wochen
56 Minuten
vor 1 Monat
54 Minuten
vor 1 Monat
1 Stunde 5 Minuten
vor 1 Monat
In Podcasts werben
Abonnenten
Düsseldorf
Kommentare (0)