Cloud in de praktijk: Hoe Cloud de SLA beïnvloedt

LinkedIn
Facebook

September 10, 2024

In een serie blogs beschrijven we de uitdagingen waarmee verschillende bedrijven te maken krijgen bij hun digitale transformatie. Wat zijn de lessons learned en inzichten en hoe kun jij deze kennis inzetten om de modernisering van IT bij jouw organisatie te versnellen?

De moderne IT-architectuur draagt een aantal kenmerken, welke van invloed zijn op de beschikbaarheid van applicaties (services). Een voorbeeld van deze kenmerken is het ontstaan van ketens, waarbij er gebruik gemaakt wordt van gemeenschappelijke services. Soms intern binnen een organisatie, soms extern zoals in het geval van SaaS. Zo’n keten bestaat in dergelijke gevallen ook uit een keten van beheerteams, die met elkaar de uiteindelijke beschikbaarheid realiseren. Het aantal teams en de onderlinge afspraken en communicatie hebben invloed op de beleving van de eindgebruiker. Is een service regelmatig niet beschikbaar, af en toe niet of eigenlijk altijd beschikbaar? En als hij dan niet beschikbaar is, is dat slechts enkele minuten of kan het langer duren?

Binnen Sogeti hebben we de ervaring dat de infrastructuur op basis van Publieke Cloud Platformen een hoge beschikbaarheid kent. Met standaard maatregelen komen we op een uptime van infrastructuur-services respectievelijk features boven de 99,97%. Maar de totale uptime van de infrastructuur heeft slechts gedeeltelijk invloed op de totale beschikbaarheid van de applicaties en op de beleving die de eindgebruiker erbij heeft. Als we naar de ervaring van de eindgebruiker kijken en vaststellen welke beschikbaarheid door deze eindgebruiker ervaren wordt, dan heeft dat direct te maken met het aantal betrokken teams in de keten, hun performance hun gedrag.

De intentie om bijna 100% beschikbaarheid voor de eindgebruiker na te streven betekent nogal wat. Wellicht moet een applicatie dubbel uitgevoerd worden en is er al veel technisch te regelen. Maar op welke wijze vindt de afstemming plaats met het support-team achter een SaaS-dienst? De kans is groot dat het beheer van applicaties in een keten anders georganiseerd moet gaan worden, simpelweg omdat het samenwerken tussen verschillende teams altijd complexer is dan het beheren van een omgeving vanuit één centraal gecoördineerd team. Dit roept de vraag op of de gangbare maatregelen en de SLA om beschikbaarheid van workloads op een Business critical of Mission critical niveau te managen niet herzien moeten worden.

Beeldvorming

Voor de beeldvorming in deze blog nemen we als uitgangspunt dat een applicatielandschap mission critical is en dat de wens is om een beschikbaarheid van 99,99% na te streven. Als je dit op jaarbasis nastreeft, dan zou dat betekenen dat deze omgeving er jaarlijks nog geen uur (ongepland) uit mag liggen. Anders gesteld de functionaliteit van zo’n mission critical landschap mag dan dus maximaal 1 uur per jaar (ongepland) niet goed functioneren. Voer voor discussie, want hoe meet je dat en waar ligt de grens van ongepland? En vanuit welke invalshoek meet je dat ene uur, vanuit de eindgebruiker gezien?

Beschikbaarheid of Uptime

Er is natuurlijk meer dat de aandacht vraagt. Met de SLA’s (lees: beschikbaarheid niveau’s) die de publieke Cloud providers medio 2021 aanleveren zijn wij in staat om een organisatie een Cloud Foundation (alle generieke respectievelijk shared services) met een uptime van meer dan 99,97% te leveren. Daarbij wordt nog helemaal geen geo-redundantie toegepast. Voor de meeste shared services is dat namelijk niet nodig of te duur en voor andere, PaaS gebaseerde services, is dat soms niet mogelijk.

De aandacht gaat naar het woord uptime, en wel uptime van de infrastructuur. De term uptime verdient extra aandacht naast het woord beschikbaarheid. Veel infrastructuurservices zijn namelijk onderhuids, en afgezien van authenticatie/IAM, zijn de meeste infrastructuurservices niet zichtbaar voor de eindgebruiker. Daarnaast regelen we in het platform veel aspecten die niet direct van invloed zijn op het functioneren zelf van een feature, maar juist op het gemak en de eenvoud om de feature toe te passen. Kortom uptime lijkt hier meer een juiste weergave van wat geleverd wordt door de infrastructuur services.

Beschikbaarheid en functionaliteit

Daar waar we in SLA’s vaak refereren aan beschikbaarheid, lijkt het essentieel om hier als betrokkenen een eenduidig beeld over te hebben. Ik denk bij beschikbaarheid al snel vanuit de positie van de eindgebruiker. Beschikbaarheid betekent dan voor mij dat ik bijvoorbeeld 99,99% of 99,95% van de tijd alle verwachte functionaliteit van een applicatie/systeem zonder problemen kan benutten. En natuurlijk accepteer ik dan korte aangekondigde onderhoudsmomenten.

Beleving eindgebruiker

Een volgende vraag is welke aspecten de ervaring en perceptie van de eindgebruiker beïnvloeden. Is dat alleen dat moment van het onverwacht niet kunnen gebruiken van de applicatie, of ook het aantal geplande onderhoudsmomenten (en de duur ervan)? Je mag verwachten dat ook de communicatie en de ondersteuning uiteindelijk de beleving van de eindgebruiker beïnvloedt. Mijn ervaring is dat er meer begrip kan worden opgebracht als het support-team adequaat en vriendelijk reageert, ook al duurt het oplossen misschien wat langer.

(Platform) lagen

In de introductie benoemde ik de kenmerkende ontwikkeling van ketens. Ketens van applicaties, waarbij meerdere beheerteams betrokken zijn. Een praktische benadering om deze teams te organiseren en efficiënt met elkaar te laten samenwerken, is het organiseren van platform-lagen. Naast het publieke Cloud platform, kennen we dan de Cloud Foundation met generieke services en daarboven op kan direct een applicatie (workload) draaien, of de applicatie maakt nog gebruik van bijvoorbeeld een low-code platform of een container-platform. Iedere laag wordt beheerd door een team. En ieder team voldoet aan een aantal eigenschappen zoals 24/7 stand-by, responstijd, oplostijd, capabilities etc.

Voor iedere laag geldt daarmee dat de uiteindelijke kwaliteit een combinatie is van de techniek en de karakteristieken ofwel de performance van het team. Dus de techniek kan een uptime of een beschikbaarheid hebben van 99,97%, als beheerteams niet adequaat reageren bij een verstoring dan zal de beleving bij de gebruikers of opdrachtgever daardoor worden beïnvloedt.

SLA – focus

Deze redenatie brengt mij bij de overweging om deze aspecten bij het opstellen van SLA’s nog eens tegen het licht te houden. Gangbare (soms kostbare) maatregelen om de techniek van de Cloud infrastructuur naar een nog hoger niveau te brengen lijken zinloos als geen rekening wordt gehouden met de andere aspecten die uiteindelijk van invloed zijn op de beleving van de gebruiker. Wellicht is het verstandiger en efficiënter om nog meer aandacht te besteden aan standaardisatie, adequate werkwijze en een first-time-right aanpak van alle betrokken teams.

Meer informatie

Wil je meer weten over hoe Sogeti jou kan helpen bij de digitale transformatie van jouw organisatie? Neem dan contact op of lees verder over de services die we je kunnen bieden.

Onze services

Sinds 2012 is Johan Flikweert in zijn rol als SME bij Sogeti betrokken bij de Cloud-reis van Nederlandse bedrijven. Hij ziet dat bij veel bedrijven vergelijkbare uitdagingen naar voren komen en deelt de ervaringen en inzichten graag door middel van zijn blogs.