Verda-logotypen

Senior / Staff Site Reliability Engineer - Verda - Distans - Globalt

Site Reliability Engineer

Publicerad: 7 maj 2026
Publicerad för 24 dagar sedan
Senast sedd i crawl: 18 maj 2026 (13d sedan)
Beräknat utgångsdatum: 11 juni 2026
Distansarbete
Roll och ledning
Rollnivå:Medelnivå
Anställningsform
Obligatoriska språk

Jobbeskrivning

Vi söker en Senior eller Staff Site Reliability Engineer (SRE) för att stärka och skala vår HPC- och molninfrastruktur i Europa. Du kommer att arbeta nära ML-, data- och plattformsgrupper för att säkerställa att våra system förblir tillförlitliga, observerbara och mycket presterande. I denna roll kommer du att designa och driva GPU-accelererade kluster, bygga automation och övervakningsverktyg, förbättra CI/CD- och distributionsarbetsflöden och bidra till långsiktig infrastrukturstrategi. Du deltar i ett 24/7 on-call-rotation, med minst en hel on-call-vecka per månad.

Företagsinformation

Verda-logotypen

Verda

Visade data baseras på historiska jobbannonser från vår databas.

Jobbdetaljer

Ansvarsområden

  • Säkerställ tillförlitligheten, skalbarheten och prestandan hos HPC- och molnsystem.
  • Bygg och underhåll automatiserings-, observations- och övervakningsramverk för beräkningskluster.
  • Samarbeta med ML-, data- och infrastrukturteam för att leverera hög tillgänglighetssystem.
  • Utveckla och förbättra CI/CD-pipelines, distributionsarbetsflöden och on-call-processer.
  • Delta i arkitekturdesign och strategiska diskussioner för infrastrukturen.
  • Delta i en 24/7 on-call-rotation, med minst en hel on-call-vecka per månad.

Krav

  • 7+ års erfarenhet av SRE, DevOps eller Infrastruktur-Engineering—helst inom HPC eller storskaliga distribuerade system.
  • Linux-expertis (Ubuntu eller Debian föredras).
  • Stark erfarenhet av scripting och automation (Python, Go, Bash).
  • Bevisad förmåga med molnplattformar (AWS, GCP, Azure eller moderna HPC-leverantörer som CoreWeave, Lambda, Nebius).
  • Djup förståelse för nätverk (DNS/TCP) och infrastruktur som kod-verktyg (Terraform, Ansible).
  • Erfarenhet av att hantera Slurm-baserade HPC GPU-kluster, diagnostisera prestandaproblem och designa effektiva HPC-jobb.
13 dagar sedanContent Complete

Help us improve JobCrawls — sign in to sync saved jobs across devices, or send feedback anytime.