
Senior / Staff Site Reliability Engineer - Verda - Distans - Globalt
Site Reliability Engineer
Tap this card for salary charts and full compensation details.
Expandera för full lönekontext
Se marknadsposition, jämförelsegraf för lönespann och lokaliserad lönenarrativ.
Jobbeskrivning
Vi söker en Senior eller Staff Site Reliability Engineer (SRE) för att stärka och skala vår HPC- och molninfrastruktur i Europa. Du kommer att arbeta nära ML-, data- och plattformsgrupper för att säkerställa att våra system förblir tillförlitliga, observerbara och mycket presterande. I denna roll kommer du att designa och driva GPU-accelererade kluster, bygga automation och övervakningsverktyg, förbättra CI/CD- och distributionsarbetsflöden och bidra till långsiktig infrastrukturstrategi. Du deltar i ett 24/7 on-call-rotation, med minst en hel on-call-vecka per månad.
Företagsinformation

Verda
Visade data baseras på historiska jobbannonser från vår databas.
Jobbdetaljer
Ansvarsområden
- Säkerställ tillförlitligheten, skalbarheten och prestandan hos HPC- och molnsystem.
- Bygg och underhåll automatiserings-, observations- och övervakningsramverk för beräkningskluster.
- Samarbeta med ML-, data- och infrastrukturteam för att leverera hög tillgänglighetssystem.
- Utveckla och förbättra CI/CD-pipelines, distributionsarbetsflöden och on-call-processer.
- Delta i arkitekturdesign och strategiska diskussioner för infrastrukturen.
- Delta i en 24/7 on-call-rotation, med minst en hel on-call-vecka per månad.
Krav
- 7+ års erfarenhet av SRE, DevOps eller Infrastruktur-Engineering—helst inom HPC eller storskaliga distribuerade system.
- Linux-expertis (Ubuntu eller Debian föredras).
- Stark erfarenhet av scripting och automation (Python, Go, Bash).
- Bevisad förmåga med molnplattformar (AWS, GCP, Azure eller moderna HPC-leverantörer som CoreWeave, Lambda, Nebius).
- Djup förståelse för nätverk (DNS/TCP) och infrastruktur som kod-verktyg (Terraform, Ansible).
- Erfarenhet av att hantera Slurm-baserade HPC GPU-kluster, diagnostisera prestandaproblem och designa effektiva HPC-jobb.
