Site Reliability Engineering - cursus 65.000 wrijven. uit Slurm, training, Datum 1 januari 2024.
Gemengde Berichten / / November 29, 2023
NAAR MENSEN
Een SRE-ingenieur kan een operationeel ingenieur of een ontwikkelaar zijn. Tijdens de intensieve cursus oefen je veel en de vaardigheden en kennis die je opdoet, kunnen op elk vakgebied worden aangepast en geïmplementeerd.
BEDRIJF
SRE lost dezelfde problemen op als DevOps: het verhoogt de snelheid van het vrijgeven van nieuwe features en verbetert de processen binnen het team. Maar de hoofdtaak van SRE is het waarborgen van de stabiliteit en betrouwbaarheid van services, met uitzondering van situaties waarin gebruikers klagen over storingen en ingenieurs groene schema's hebben.
Wij bouwen:
Onze trainingssite bestaat uit verschillende microservices. Het verzamelt gegevens over shows, prijzen en beschikbare zitplaatsen van alle bioscopen, toont filmaankondigingen, stelt u in staat een bioscoop, show, zaal en plaats te selecteren, kaartjes te boeken en te betalen.
We zullen SLO-, SLI- en SLA-indicatoren voor deze site formuleren, een architectuur en infrastructuur ontwikkelen die deze zal ondersteunen, monitoring en alarmering opzetten.
Ontwikkelaarsfouten, infrastructuurstoringen, een toestroom van bezoekers en DoS-aanvallen leiden tot verslechterende SLO's.
We analyseren de stabiliteit, het foutenbudget, de testpraktijk, het beheer van onderbrekingen en de operationele belasting.
Er was een ongeluk. De betalingsverwerkingsservice is offline. Hoe te handelen om de functionaliteit in de kortst mogelijke tijd te herstellen?
Wij organiseren de werkzaamheden van het BHV-team: het betrekken van collega’s, het informeren van belanghebbenden, het stellen van prioriteiten. We trainen om onder druk te werken in extreem beperkte tijdsomstandigheden.
Laten we de aanpak van de site vanuit een SRE-oogpunt bekijken. We analyseren incidenten (oorzaken van optreden, voortgang van eliminatie). We nemen beslissingen om ze verder te voorkomen: we verbeteren de monitoring, veranderen de architectuur, de aanpak van ontwikkeling en exploitatie, en regelgeving. Wij automatiseren processen.
— We hebben tientallen gebouwde infrastructuren en honderden geschreven CI/CD-pijpleidingen,
— Gecertificeerde Kubernetes-beheerder,
— Auteur van verschillende cursussen over Kubernetes en DevOps,
— Regelmatige spreker op Russische en internationale IT-conferenties.
DAG 1: AMA-startsessie
We bespreken de doelen en doelstellingen van de cursus, vertellen ook wat SRE is en verdelen dit in teams.
Opening van 2 theoretische onderwerpen:
Onderwerp 1: Toezicht
- Waarom is monitoring nodig?
- Percentielen
- Waarschuwing
- Waarneembaarheid
Onderwerp 2: SRE-theorie
- SLO, SLI, SLA
- Duurzaamheid
- Fout budget
DAG 2: analyse van praktijken en cases
Oefening: Het maken van een basisdashboard en het instellen van de nodige alerts
Oefening: SLO/SLI + waarschuwingen toevoegen aan het dashboard
Oefening: Eerste systeembelasting
Oplossing van geval 1: stroomafwaartse afhankelijkheid.
In een groot systeem zijn er veel onderling afhankelijke diensten, en deze werken niet altijd even goed. Het is vooral vervelend als uw service in orde is, maar de naburige, waarvan u afhankelijk bent, valt periodiek uit.
Het onderwijsproject komt in precies deze omstandigheden terecht en jij zorgt ervoor dat het toch kwaliteit op een zo hoog mogelijk niveau oplevert.
DAG 3: AMA-sessie, vragen beantwoord
Toegang tot de 2e theoretische module opent:
Problemen met het milieu en de architectuur oplossen
De tweede module is opgebouwd rond het oplossen van twee gevallen: stroomopwaartse afhankelijkheid en architecturale problemen. Sprekers vertellen over incidentmanagement, regels voor de brandweer en het werken met autopsie en zorgen voor sjablonen die je in je team kunt gebruiken.
Onderwerp 3: Incidentbeheer
- Veerkracht techniek
- Hoe een brandweer wordt gevormd
- Hoe effectief is uw team bij het incident?
- 7 regels voor een incidentleider
- 5 regels voor een brandweerman
- HiPPO - mening van de best betaalde persoon. Communicatie leider
TThema 4: Varrum-instrumenten en waarschuwingsbeheer.
Best practice van andere bedrijven bij het organiseren van incidentmanagement.
DAG 4: analyse van praktijken en cases
Oplossing voor geval 2: upstream-afhankelijkheid.
Het is één ding als u afhankelijk bent van een dienst met een lage SLO. Het is een andere zaak wanneer uw service hetzelfde is voor andere delen van het systeem. Dit gebeurt als de evaluatiecriteria niet consistent zijn: u reageert bijvoorbeeld binnen een seconde op een verzoek en beschouwt het als een succes, maar de afhankelijke dienst wacht slechts 500 Moskou-tijd en vertrekt met een fout.
In dit geval bespreken we het belang van het harmoniseren van statistieken en leren we door de ogen van de klant naar kwaliteit te kijken.
Oplossing voor geval 3: problemen met de database.
De database kan ook een bron van problemen zijn. Als u bijvoorbeeld de replicatierelay niet bewaakt, raakt de replica verouderd en retourneert de toepassing oude gegevens. Bovendien is het debuggen van dergelijke gevallen bijzonder moeilijk: nu zijn de gegevens inconsistent, maar na een paar seconden zijn ze niet langer consistent en is het niet duidelijk wat de oorzaak van het probleem is.
Door de casus heen zult u alle pijn van het debuggen voelen en leren hoe u dergelijke problemen kunt voorkomen.
Oefening: We schrijven een postmortem over de vorige casus en bespreken deze met de sprekers.
DAG 5: AMA-sessie, vragen beantwoord
AMA-sessie en antwoorden op vragen over eerdere onderwerpen.
Toegang tot de 3e theoretische module opent:
Verkeersafscherming en vrijlating van kanaries
In de derde module analyseren we een casus gewijd aan een probleem met het milieu (er zal een gedetailleerde analyse van Gezondheid zijn). Checking), en we zullen ook stap voor stap analyseren hoe SRE in bedrijven kan worden geïmplementeerd en de ervaring leren van de bedrijven waar de sprekers werken intensief
Onderwerp 5: Gezondheidscontrole
- Gezondheidscontrole in Kubernetes
- Bestaat onze service nog?
- Exec-sondes
- InitialDelaySeconden
- Secundaire gezondheidshaven
- Zijspangezondheidsserver
- Sonde zonder hoofd
- Hardware-sonde
Onderwerp 6: Implementatiemethoden
Onderwerp 7: Onboarding van SRE-projecten
Grote bedrijven vormen vaak een apart SRE-team, dat ter ondersteuning de diensten van andere afdelingen inschakelt. Maar niet elke dienst is klaar om voor ondersteuning te worden geaccepteerd. Wij vertellen u aan welke eisen deze moet voldoen. Sprekers zullen ook hun ervaringen delen, hoe ze SRE hebben geïmplementeerd en welke fouten ze hebben gemaakt.
DAG 6: analyse van praktijken en cases
Oplossing voor geval 4: er is een probleem met het milieu, het is onmogelijk om kaartjes te kopen.
De taak van Healthcheck is om een defecte service te detecteren en het verkeer ernaartoe te blokkeren. En als u denkt dat het hiervoor voldoende is om met root een verzoek in te dienen bij de service en een antwoord te ontvangen, dan bent u dat u vergist zich: zelfs als de service reageert, is dit geen garantie voor de werking ervan - er kunnen zich problemen voordoen omgeving.
Door deze case leert u hoe u de juiste Healthcheck configureert en voorkomt dat verkeer ergens terechtkomt waar het niet kan worden verwerkt.
Samenvatten