"DevOps vs SRE" wordt meestal neergezet als een territoriumstrijd, en dat is de verkeerde vraag. DevOps is een set doelen - sneller en veiliger leveren door nauwere samenwerking tussen development en operations. Site Reliability Engineering is één specifieke, uitgesproken invulling van die doelen, ontstaan bij Google om grootschalige systemen te draaien en vastgelegd in het O'Reilly SRE Book uit 2017. De nuttige vergelijking is niet "welke is beter", maar "waar wordt SRE voorschrijvend precies op de plekken die DevOps aan de smaak overlaat" - want juist op die plekken lopen gereguleerde teams op grote schaal averij op. Hieronder de vier verschillen die het contact met productie overleven, plus waarom AI ze belangrijker maakt in plaats van minder belangrijk.
1. Oorsprong en filosofie: een cultuur vs een concrete invulling
DevOps ontstond als culturele correctie op het patroon waarbij development de boel over de muur naar operations gooit. De filosofie draait om samenwerking en flow, en de industriestandaard om dat te scoren is het DORA-onderzoeksprogramma, dat levering meet langs twee assen - throughput en stabiliteit - en teams indeelt in elite, high, medium en low. Het rapport van 2024 is gebaseerd op ruim 39.000 professionals, en daarom is DORA, niet de marketing van een leverancier, het referentiepunt voor "zijn we hier goed in" (InfoQ, 2024 DORA coverage).
SRE vertrekt vanuit een ander uitgangspunt: behandel operations als een softwareprobleem. Waar DevOps zegt "developers en operators moeten samenwerken", zegt SRE "hier is de engineeringdiscipline, het error budget en het on-call-model dat je gaat gebruiken". Het praktische gevolg voor een director: je kunt DevOps adopteren en alsnog een tiental teams hebben die betrouwbaarheid op een tiental verschillende manieren meten. SRE haalt die ambiguïteit weg door een gedeeld vocabulaire verplicht te stellen. Die starheid is een feature in gereguleerde omgevingen, waar "we werken goed samen" geen antwoord is dat een auditor accepteert.
2. Roldefinitie: gedeeld eigenaarschap vs een aparte engineeringfunctie
In een DevOps-model versmelten de verantwoordelijkheden van dev en ops binnen het deliveryteam. Er hoeft helemaal geen toegewijde betrouwbaarheidsrol te zijn; het team dat levert, draait het ook. SRE houdt bewust een aparte functie in stand - de Site Reliability Engineer - die naast de productontwikkeling werkt maar een eigen identiteit, een eigen budget en de bevoegdheid behoudt om tegen snelheid in te gaan wanneer betrouwbaarheid in gevaar komt.
Die scheiding is geen bureaucratie; het is een governancemechanisme. Een versmolten DevOps-team onder featuredruk zal stilletjes betrouwbaarheid inruilen, omdat dezelfde mensen beide kanten van de afweging bezitten en de luidste stakeholder meestal de feature wil. Een onafhankelijke SRE-functie geeft betrouwbaarheid een eigen stoel, eigen metrics en een mandaat dat een krap kwartaal overleeft. Voor teams onder SLA's met financiële boetes is die organisatorische firewall vaak het verschil tussen "we hebben een target gemist" en "we hebben moeten uitbetalen".
3. Meetbare doelstellingen: SRE is voorschrijvend waar DevOps vaag is
Dit is het verschil dat het zwaarst weegt, en hier is het oorspronkelijke onderscheid tussen de twee het scherpst. DevOps geeft om metrics, maar zegt niet welke of hoe je ze definieert. SRE wel, via een precieze hiërarchie van drie begrippen, rechtstreeks uit Hoofdstuk 4 van het SRE Book (Jones, Wilkes, Murphy & Smith):
- SLI - een Service Level Indicator is een zorgvuldig gedefinieerde kwantitatieve maat voor één aspect van de dienst: request latency, error rate, beschikbaarheid. Het is een getal dat je daadwerkelijk meet, geen ambitie.
- SLO - een Service Level Objective is een streefwaarde of -bereik voor een SLI. "99,9% van de requests slaagt over een voortschrijdende periode van 30 dagen" is een SLO.
- SLA - een Service Level Agreement is een expliciet of impliciet contract met gebruikers dat consequenties verbindt aan het niet halen van de SLO's.
Het boek geeft een test van één regel die de meeste interne verwarring doorsnijdt: om een SLO van een SLA te onderscheiden, vraag je "wat gebeurt er als de doelstelling niet wordt gehaald?" Als het antwoord een financiële creditering of een contractuele boete is, is het een SLA. Als het antwoord "dan voeren we een interne discussie" is, is het een SLO. De meeste teams gooien de twee op één hoop en ontdekken dan, tijdens een incident, dat een getal dat ze als adviserend behandelden in werkelijkheid contractueel was. SRE dwingt je die grens vooraf te trekken. DevOps doet dat, aan zichzelf overgelaten, zelden - en "we monitoren uptime" is niet hetzelfde als "we zijn het eens geworden over welke indicator, op welk target, met welke consequentie".
4. Error budgets: betrouwbaarheid omzetten in een valuta die beide kanten kunnen uitgeven
Het error budget is het mechanisme dat de discussie snelheid-vs-betrouwbaarheid kwantitatief maakt in plaats van politiek. Het wordt simpelweg gedefinieerd als 1 min de SLO (Google SRE Workbook). Een beschikbaarheids-SLO van 99,9% laat een error budget van 0,1% over - de totale tijd dat de dienst niet-compliant mag zijn voordat hij de norm overschrijdt. Trek je het target aan tot 99,99% over een voortschrijdende periode van 30 dagen, dan slinkt het budget tot iets meer dan 4 minuten downtime per maand.
Dat ene getal herkadert de hele organisatorische dynamiek. Zolang er budget over is, levert het team agressief; betrouwbaarheidswerk blokkeert het featurewerk niet. Wanneer het budget op is, worden releases bevroren en verschuift de prioriteit van het team naar betrouwbaarheid totdat het budget zich herstelt. Niemand hoeft een discussie te winnen over de vraag of een risicovolle deploy "het waard is" - het budget beantwoordt die. Traditionele DevOps neigt ernaar uptime reactief en geval voor geval te beheren; het error budget maakt er een vooraf afgesproken, zichzelf afdwingend beleid van. Voor een engineering director is dit de schoonste manier om product en betrouwbaarheid een gedeelde valuta te geven die beide begrijpen, in plaats van de afweging elke sprint opnieuw uit te vechten.
Waarom AI de inzet op alle vier verhoogt
De reden dat deze vergelijking in 2026 urgenter is dan toen het artikel oorspronkelijk werd geschreven, is AI-ondersteunde ontwikkeling. Het DORA-rapport van 2025, gebaseerd op bijna 5.000 respondenten, stelde vast dat 90% van de professionals nu AI op het werk gebruikt en ruim 80% productiviteitswinst rapporteert - maar het constateerde ook dat AI "the great amplifier" is: het versterkt welke discipline een team al heeft, goed of slecht (Google Cloud / DORA, 2025). Cruciaal is dat AI nog steeds een negatieve relatie met deliverystabiliteit vertoont; de data van 2024 mat een daling van 7,2% in stabiliteit en een daling van 1,5% in throughput die samenhing met AI-adoptie, en bijna 40% van de engineers rapporteert weinig tot geen vertrouwen in AI-gegenereerde code (InfoQ).
De implicatie is direct: wanneer gegenereerde code het changevolume verhoogt en de stabiliteit verlaagt, worden de SRE-vangrails - SLO's, error budgets, een onafhankelijke betrouwbaarheidsfunctie - het tegenwicht dat voorkomt dat versnelling in storingen verandert. AI maakt de betrouwbaarheidsdiscipline van SRE waardevoller, niet overbodig. Het rapport van 2025 voegt een tweede structureel signaal toe: 90% van de organisaties heeft minstens één intern platform geadopteerd, en Gartner verwacht dat 80% van de grote engineeringorganisaties in 2026 platformteams draait, tegen 45% in 2022. Platform engineering wordt het bindweefsel tussen de DevOps-cultuur en de SRE-discipline - de plek waar SLO's, paved-road CI/CD en error-budgetbeleid één keer worden vastgelegd en door elk team worden geërfd, wat ook is waar hoogwaardige interne platforms mee correleren als het aankomt op het halen van waarde uit AI.
Dus welke heb je nodig?
Behandel het als een laagjesbeslissing, niet als een keuze. Adopteer DevOps als de operationele cultuur - de samenwerking, de flow, de DORA-scorekaart. Adopteer SRE waar de kosten van onbetrouwbaarheid hoog genoeg zijn om de discipline te rechtvaardigen: een aparte betrouwbaarheidsfunctie, expliciete SLI's en SLO's, een eerlijk onderscheid tussen SLA en SLO, en error budgets die de afweging tussen snelheid en stabiliteit automatisch arbitreren. Op betekenisvolle schaal, en zeker onder regulering of AI-versnelde verandering, kies je niet één van beide. Je draait DevOps als de filosofie en SRE als de handhavingslaag - steeds vaker geleverd via een gedeeld intern platform. De teams die averij oplopen, zijn degene die het DevOps-vocabulaire overnemen en de SRE-specifieke punten overslaan, en zich dan afvragen waarom "we hechten waarde aan betrouwbaarheid" de volgende releasestress niet overleefde.
Bronnen
- Announcing the 2025 DORA Report: State of AI-assisted Software Development - Google Cloud / DORA, 2025
- 2024 Accelerate State of DevOps Report Shows Pros and Cons of AI - InfoQ (Matt Saunders), 2024
- Site Reliability Engineering, Chapter 4: Service Level Objectives - Google / O'Reilly (Jones, Wilkes, Murphy & Smith), 2017
- Service Level Objectives & Error Budgets (Google SRE Workbook) - Google SRE, 2018