Verda-logo

Senior / Staff Site Reliability Engineer - Verda - Etätyö - Globaali

Site Reliability Engineer

Julkaistu: 7. toukokuuta 2026
Julkaistu 24 päivää sitten
Viimeksi nähty crawlissa: 18. toukokuuta 2026 (13pv sitten)
Arvioitu päättymispäivä: 11. kesäkuuta 2026
Työskentelytapa
Rooli ja johtaminen
Roolitaso:Keskitaso
Työsuhteen tyyppi
Vaaditut kielet

Työtehtävän kuvaus

Etsimme Senior- tai Staff Site Reliability Engineeriä (SRE) vahvistamaan ja skaalaamaan HPC- ja pilvi-infrastruktuuriamme Euroopassa. Työskentelet tiiviisti ML-, data- ja alustatiimien kanssa varmistaaksesi, että järjestelmämme pysyvät luotettavina, havaittavina ja erittäin suorituskykyisinä. Tässä roolissa suunnittelet ja ylläpidät GPU-kiihdytettyjä klustereita, rakennat automaatio- ja valvontatyökaluja, parannat CI/CD- ja käyttöönotto-työnkulkuja ja osallistut pitkäaikaiseen infrastruktuuristrategiaan.

Yrityksen tiedot

Verda-logo

Verda

Näytetyt tiedot perustuvat tietokantamme aiempiin työpaikkailmoituksiin.

Työn tiedot

Vastuut

  • Varmista HPC- ja pilvi-infrastruktuurin luotettavuus, skaalautuvuus ja suorituskyky.
  • Rakenna ja ylläpidä automaatio-, havaittavuus- ja valvontakehikkoja laskentaklustereille.
  • Tee yhteistyötä ML-, data- ja infrastruktuuritiimien kanssa tarjotaksesi korkeasti käytettävissä olevia järjestelmiä.
  • Kehitä ja paranna CI/CD-putkia, käyttöönotto-työnkulkuja ja on-call-prosesseja.
  • Osallistu arkkitehtuurisuunnitteluun ja infrastruktuurin pitkän aikavälin strategiasuunnitteluun.
  • Osallistu 24/7 on-call-kiertoon, vähintään yhden täyden on-call-viikon kuukaudessa.

Vaatimukset

  • 7+ vuotta SRE:ssä, DevOpsissa tai Infrastruktuuri-insinöörinä—mielellään HPC:ssä tai suurissa hajautetuissa järjestelmissä.
  • Linux-asiantuntemus (Ubuntu tai Debian suositeltavaa).
  • Vahva kokemus skriptauksesta ja automaatiosta (Python, Go, Bash).
  • Todistettu kyky käyttää pilvipalveluita (AWS, GCP, Azure tai nykyaikaisia HPC-palveluntarjoajia kuten CoreWeave, Lambda, Nebius).
  • Syvällinen ymmärrys verkkotekniikoista (DNS/TCP) ja infrastruktuorina koodityökaluista (Terraform, Ansible).
  • Kokemus Slurm-pohjaisten HPC GPU-klustereiden hallinnasta, suorituskykyongelmien diagnosoinnista ja tehokkaiden HPC-työnkulkujen suunnittelusta.
13 päivää sittenContent Complete

Help us improve JobCrawls — sign in to sync saved jobs across devices, or send feedback anytime.