
Senior / Staff Site Reliability Engineer - Verda - Etätyö - Globaali
Site Reliability Engineer
Tap this card for salary charts and full compensation details.
Laajenna nähdäksesi täyden palkkakontekstin
Näe markkinasijoittuminen, palkkahaarukan vertailukaavio ja lokalisoitu palkkanarratiivi.
Työtehtävän kuvaus
Etsimme Senior- tai Staff Site Reliability Engineeriä (SRE) vahvistamaan ja skaalaamaan HPC- ja pilvi-infrastruktuuriamme Euroopassa. Työskentelet tiiviisti ML-, data- ja alustatiimien kanssa varmistaaksesi, että järjestelmämme pysyvät luotettavina, havaittavina ja erittäin suorituskykyisinä. Tässä roolissa suunnittelet ja ylläpidät GPU-kiihdytettyjä klustereita, rakennat automaatio- ja valvontatyökaluja, parannat CI/CD- ja käyttöönotto-työnkulkuja ja osallistut pitkäaikaiseen infrastruktuuristrategiaan.
Yrityksen tiedot

Verda
Näytetyt tiedot perustuvat tietokantamme aiempiin työpaikkailmoituksiin.
Työn tiedot
Vastuut
- Varmista HPC- ja pilvi-infrastruktuurin luotettavuus, skaalautuvuus ja suorituskyky.
- Rakenna ja ylläpidä automaatio-, havaittavuus- ja valvontakehikkoja laskentaklustereille.
- Tee yhteistyötä ML-, data- ja infrastruktuuritiimien kanssa tarjotaksesi korkeasti käytettävissä olevia järjestelmiä.
- Kehitä ja paranna CI/CD-putkia, käyttöönotto-työnkulkuja ja on-call-prosesseja.
- Osallistu arkkitehtuurisuunnitteluun ja infrastruktuurin pitkän aikavälin strategiasuunnitteluun.
- Osallistu 24/7 on-call-kiertoon, vähintään yhden täyden on-call-viikon kuukaudessa.
Vaatimukset
- 7+ vuotta SRE:ssä, DevOpsissa tai Infrastruktuuri-insinöörinä—mielellään HPC:ssä tai suurissa hajautetuissa järjestelmissä.
- Linux-asiantuntemus (Ubuntu tai Debian suositeltavaa).
- Vahva kokemus skriptauksesta ja automaatiosta (Python, Go, Bash).
- Todistettu kyky käyttää pilvipalveluita (AWS, GCP, Azure tai nykyaikaisia HPC-palveluntarjoajia kuten CoreWeave, Lambda, Nebius).
- Syvällinen ymmärrys verkkotekniikoista (DNS/TCP) ja infrastruktuorina koodityökaluista (Terraform, Ansible).
- Kokemus Slurm-pohjaisten HPC GPU-klustereiden hallinnasta, suorituskykyongelmien diagnosoinnista ja tehokkaiden HPC-työnkulkujen suunnittelusta.
