relyon AG

DevOps Engineer (m/w/d)

relyon AG, California, Missouri, United States, 65018

Projektkontext

OneAI ist eine souverne KI-Plattform fr Unternehmen. Wir entwickeln ein mandantenfhiges System mit lokal betriebenen Sprachmodellen (LLMs), GPU-Slicing per MIG, RAG-Vektor-Datenbanken, Self-Service-Portalen und automatisierter Bereitstellung. Als

DevOps Engineer

bist Du fr die zuverlssige, isolierte und skalierbare Bereitstellung unserer Multi-Tenant-Infrastruktur verantwortlich von GPU-Partitionierung bis zu Container-Netzwerken und Observability. Projektkontext

OneAI ist eine souverne KI-Plattform fr Unternehmen. Wir entwickeln ein mandantenfhiges System mit lokal betriebenen Sprachmodellen (LLMs), GPU-Slicing per MIG, RAG-Vektor-Datenbanken, Self-Service-Portalen und automatisierter Bereitstellung. Als

DevOps Engineer

bist Du fr die zuverlssige, isolierte und skalierbare Bereitstellung unserer Multi-Tenant-Infrastruktur verantwortlich von GPU-Partitionierung bis zu Container-Netzwerken und Observability. Dein Profil

Tiefes Verstndnis von

Containertechnologien (Docker, Compose, Traefik) Erfahrung mit Netzwerkisolation (VLANs, MACVLAN, IP-Konfiguration, Firewalling) Kenntnisse in

GPU-Slicing mit NVIDIA MIG

(Profilhandling, Mapping, Monitoring) Vertraut mit CI/CD Pipelines (GitHub Actions, Shell Scripting, Automatisierung) Erfahrung mit Observability-Stacks: Prometheus, Loki, Grafana, Tempo Security-Knowhow (TLS, Key Management, Container Hardening) Selbststndig, zuverlssig, sauber dokumentierende Arbeitsweise Bonuspunkte Erfahrung mit Airgapped oder OnPrem-Deployments Kenntnisse in Supabase, pgvector, Ollama Performance-Optimierung fr LLM-Infrastruktur Shell-Scripting & YAML-Zauberer

Deine Aufgaben

Aufbau und Betreuung der Multi-Tenant Deployment-Umgebung mit

Docker Compose Konfiguration von

VLAN/MACVLAN/IP

Netzwerken pro Mandant MIG-Konfiguration

fr dedizierte GPU-Slices pro Kunde (H100/H200) Automatisierte Bereitstellung via

0codeDeploy

und GitHub CI/CD Einrichtung von

Monitoring (Prometheus, Loki, Grafana, Tempo)

und

Alerting Absicherung von Services (API Keys, Traefik, TLS, Root-CA, IP-Filter) Backup/Restore-Strategien, Ressourcen-Management, Healthchecks Performance-Monitoring von Ollama, PostgreSQL, Vektordatenbank, LLM-Pipelines Unser Stack Infra:

Docker, Traefik, NVIDIA MIG, VLAN/MACVLAN LLM-Stack:

Ollama, LangChain, Vektorisierung, RAG Monitoring:

Prometheus, Grafana, Loki, Tempo CI/CD:

GitHub Actions, 0codeDeploy, Shell Sicherheit:

Root-CA, TLS (SAN/IP), API Keys, Audit Logging Du baust die Brcke zwischen Infrastruktur, KI-System und Datensicherheit. Wenn Du robuste Systeme liebst, die mit Przision und Automatisierung glnzen bewirb Dich jetzt. #J-18808-Ljbffr