Site Reliability Engineering (SRE) mit Andy Grunwald vom Engineering Kiosk #81

Site Reliability Engineering (SRE) mit Andy Grunwald vom Engineering Kiosk #81

1 Stunde 17 Minuten

Beschreibung

vor 7 Monaten

SRE (Site Reliability Engineering) ist ein Ansatz, bei dem
Softwareentwickler aktiv die Verantwortung für Systemstabilität
und Skalierbarkeit übernehmen. Gast Andy Grunwald (Engineering
Manager bei Cloudflare und Co-Host des "Engineering Kiosk")
erklärt den Paradigmenwechsel: Statt wie klassische Ops-Teams
primär reaktiv auf Ausfälle zu reagieren, gestalten SREs Systeme
von Grund auf resilient.


Zentrale Elemente sind Service Level Objectives (SLOs), die
festlegen, wie stabil ein Service sein muss, und Error Budgets,
die akzeptable Ausfallzeiten definieren. Bei Problemen folgt SRE
einem strukturierten Incident-Management-Prozess.


Der kulturelle Aspekt ist entscheidend: SRE verschiebt den Fokus
von kurzfristiger Fehlerbehebung hin zu langfristiger
Systemstabilität – etwa durch Automatisierung, Monitoring und
gezielte Resilienztests (Chaos Engineering). Letztlich geht es
darum, Betrieb und Entwicklung näher zusammenzubringen, ohne in
klassische "Wir gegen die Ops"-Muster zu verfallen.


------


Korrekturen zur Folge
Beim Thema Incidents wird gesagt, dass die Metrik MTRR heißt.
Sie heißt jedoch MTTR.
Siehe https://de.wikipedia.org/wiki/Mean_Time_To_RecoverBei
der Story mit dem Flugzeug und den Löchern im Flügel sprechen wir
vom "Confirmation Bias". Tatsächlich handelt es sich um das
"Survivorship Bias".
Siehe https://en.wikipedia.org/wiki/Survivorship_bias

------


Links zur Folge


https://andygrunwald.com/blog/my-all-time-high-articles/


The Phoenix Project
https://www.amazon.de/Phoenix-Project-DevOps-Helping-Business/dp/0988262592


The Unicorn Project
https://www.amazon.de/Unicorn-Project-Developers-Disruption-Thriving/dp/1942788762


Google SRE books: https://sre.google/books/


Exponential Backoff And Jitter
https://aws.amazon.com/de/blogs/architecture/exponential-backoff-and-jitter/


SRE fundamentals: SLIs, SLAs and SLOs


https://cloud.google.com/blog/products/devops-sre/sre-fundamentals-slis-slas-and-slos?hl=en


Pagerduty Incident Response https://response.pagerduty.com/


Engineering Kiosk Podcasts: ⁠https://engineeringkiosk.dev/


Andy Grunwald LinkedIn
https://www.linkedin.com/in/andy-grunwald-09aa265a/


------


Einfach Komplex ist ein Podcast von Heisenware. Alle
Infos und Kontakte findest du im Linktree:
⁠⁠https://linktr.ee/heisenware⁠⁠


------


Andy, Burkhard & Gerrit sprechen heute über:


(00:00:00) Intro Andy


(00:03:00) Entstehung, Einordnung und Abgrenzung zu DevOps


(00:27:30) SRE in der Praxis


(00:42:30) Service Level Agreements und Verfügbarkeit


(00:54:30) Kultur, Ausfälle und Übungen für den Notfall


(01:08:30) SRE Summary


(01:12:30) Weitere Ressourcen und Kontakt Andy

Kommentare (0)

Lade Inhalte...

Abonnenten

MSWMGPodcast
Düsseldorf
15
15