HighLevel

Site Reliability Engineer III

HighLevel, Dallas, Texas, United States, 75215

We are looking for a Site Reliability Engineer (SRE) to join our team and help ensure the availability, performance, and scalability of our critical systems. You will work closely with development and operations teams to automate processes, enhance system reliability, and improve observability. Responsibilities

Develop and improve observability using monitoring, logging, tracing, and alerting tools (Prometheus, Grafana, ELK, OpenTelemetry, etc.). Optimise system performance, troubleshoot incidents, and conduct post-mortems/RCA to prevent future issues. Collaborate with developers to enhance application reliability, scalability, and performance. Drive cost optimisation efforts in cloud environments. Experience with multiple databases, Mongo, Redis, ES, Queue-based based etc. Requirements

Experience: 4+ years in Site Reliability Engineering, DevOps, or Cloud Infrastructure roles. Cloud Expertise: Hands-on experience with GCP and AWS. Infrastructure as Code (IaC): Terraform, Helm, or equivalent tools. Containerization & Orchestration: Docker, Kubernetes (GKE). Observability: Experience with Prometheus, Grafana, ELK, OpenTelemetry, or similar monitoring/logging tools. Programming/Scripting: Proficiency in Python, Bash, or Shell scripting. Basic understanding of API parsing and JSON manipulation. CI/CD Pipelines: Hands-on experience with Jenkins, GitHub Actions, ArgoCD, or similar tools. Incident Management: Experience with on-call rotations, SLOs, SLIs, SLAs, Escalation Policies, and incident resolution. Databases: Experience in monitoring Mongo, Redis, ES, Queue-based based etc.

#J-18808-Ljbffr