SLA 99.97%: o que significa uptime

SLA (99.97% uptime)

Navegue por tópicos

SLA (99.97% uptime) é um Acordo de Nível de Serviço que define a disponibilidade prometida de um sistema e a confiabilidade operacional esperada. Ele estabelece limites de interrupção aceitáveis e orienta decisões sobre SLOs, SLIs e gestão de incidentes. Na prática, eu uso esse compromisso para priorizar monitoramento, alertas e capacidade, avaliando riscos e impacto no usuário quando a disponibilidade fica abaixo do acordado.

O que é SLA (99.97% uptime)?

SLA com 99,97% de uptime é um compromisso contratual de disponibilidade: o provedor promete manter o serviço operacional durante praticamente todo o período de medição, aceitando apenas uma pequena fração de tempo indisponível. Em termos simples, define a expectativa de quão acessível o serviço será ao longo de um mês ou ano, sob condições normais de operação.

Esse tipo de SLA foca na disponibilidade do serviço, isto é, na capacidade de responder de forma bem-sucedida às solicitações em sua superfície definida (por exemplo, um endpoint de API ou uma página de status do produto). Não é uma garantia de desempenho como latência, throughput ou tempos de resposta do suporte; tampouco cobre experiências fora do domínio do provedor, como problemas na rede do cliente, no navegador ou em integrações de terceiros.

Por ser um acordo de nível de serviço, tem caráter contratual: estabelece uma base comum entre cliente e fornecedor sobre o que é considerado “disponível”, qual o período de apuração, quais eventos são elegíveis e que exceções se aplicam. Em geral, a medição considera transações representativas na fronteira do serviço e utiliza critérios objetivos, como códigos de status e taxas de sucesso.

O escopo típico inclui janelas de observação, critérios de elegibilidade e exclusões, como força maior e manutenção previamente comunicada. Elementos como RTO/RPO, segurança, qualidade de dados ou experiência do usuário podem ter metas próprias e não são, por padrão, parte de um SLA de uptime.

Uma analogia útil: imagine uma loja que promete estar aberta quase o tempo todo; o SLA descreve essa promessa, define o que conta como “porta aberta”, quando o relógio é zerado e em quais raras circunstâncias a porta pode ficar fechada sem descumprir o acordo.

Disponibilidade vs. confiabilidade

Disponibilidade vs. confiabilidade

Disponibilidade descreve o quão frequentemente um serviço está acessível e capaz de atender requisições básicas. Em um SLA com 99,97% de uptime, o foco está em garantir que o sistema esteja “de pé” quase o tempo todo, ou seja, o usuário consegue se conectar e obter resposta.

Confiabilidade vai além de estar disponível: trata da consistência e da correção das respostas ao longo do tempo. Um serviço confiável entrega resultados certos, com taxas de erro baixas, latência previsível e sem comportamento errático, preservando dados e mantendo estado de forma íntegra.

Na prática, é possível ter alta disponibilidade e baixa confiabilidade. O sistema pode “responder” mas retornar códigos de erro acima do normal, ter picos de lentidão, ou apresentar inconsistências de dados. Para o usuário, isso é percebido como um serviço que está no ar, porém frustrante de usar.

Uma analogia simples ajuda: um restaurante pode estar aberto (disponível), mas se os pedidos chegam trocados, frios ou atrasados, a confiabilidade do serviço é baixa. Estar aberto não garante uma experiência correta e previsível.

Em termos de engenharia, disponibilidade está fortemente ligada a redundância, tolerância a falhas e eliminação de pontos únicos de falha; já confiabilidade está associada a qualidade de software, controles de integridade, testes, gestão de incidentes e estabilidade operacional contínua.

Este bloco esclarece os conceitos e limitações de cada dimensão. Ele não calcula minutos de indisponibilidade nem define metas de alerta ou limites de desempenho; esses aspectos pertencem a seções específicas do SLA, como métricas de erro, latências por percentil e critérios de manutenção.

Em resumo, uptime garante alcance, enquanto confiabilidade assegura que aquilo que foi alcançado funciona corretamente, de forma consistente e previsível. Ambos são necessários para uma experiência realmente satisfatória.

Dúvidas frequentes sobre SLA 99,97% (uptime)

O que significa, na prática, um SLA de 99,97% de uptime?

Um SLA de 99,97% indica a disponibilidade prometida: cerca de 13 minutos e 9 segundos de downtime permitido por mês (ou ≈2 horas e 38 minutos por ano). Refere‑se à capacidade do serviço de responder a requisições dentro do escopo definido (endpoints monitorados) e não garante métricas de desempenho como latência ou experiência do usuário. Verifique o contrato para entender exatamente como “disponível” é definido e quais exceções se aplicam.

Como o uptime é medido e quais SLIs/SLOs devo exigir?

Peça ao fornecedor a metodologia (quais endpoints, frequência das checagens e critérios de sucesso). SLIs essenciais: disponibilidade percentual (uptime), taxa de erro (5xx), latência por percentil (p95/p99) e MTTR. Recomenda‑se um SLO interno um pouco mais exigente que o SLA (por exemplo, 99,98%) para criar folga operacional.

Quais riscos e exclusões mais comuns que podem reduzir a disponibilidade garantida?

Exclusões frequentes: manutenção programada (com aviso), força maior, falhas de terceiros (CDN, DNS, provedores de backbone), ataques DDoS em larga escala, problemas na rede do cliente ou configurações do cliente e picos regionais de ISP. Leia cláusulas sobre prazos de aviso, janelas de manutenção e critérios para elegibilidade de créditos.

Como monitorar e validar continuamente que o serviço cumpre 99,97%?

Combine monitoramento sintético (checagens regulares — idealmente a cada ~1 minuto — de múltiplas regiões) com Real User Monitoring (RUM) para capturar a experiência real. Use sondas independentes (terceiro ou sua própria infraestrutura) para validar os dados do fornecedor, dashboards com alertas acionáveis e integração com ferramenta de gerenciamento de incidentes. Monitore também DNS, certificados TLS e endpoints críticos; mantenha logs e traces para correlação.

Que SLIs e KPIs devo acompanhar para reduzir chances de violação do SLA?

Monitore: disponibilidade (%) por período, minutos de downtime, taxa de erros (5xx), latência p95/p99, MTTR, frequência de incidentes e taxa de sucesso em deploys. Defina thresholds acionáveis e automações (rollback/failover) e mantenha SLOs internos com folga. Revise esses indicadores regularmente.

O que fazer quando ocorre uma indisponibilidade que afeta meu negócio?

Siga um fluxo claro: 1) confirme a falha com múltiplas fontes de monitoramento; 2) classifique impacto e acione o runbook; 3) comunique stakeholders e clientes com atualizações objetivas; 4) colete logs e evidências (para análise e eventual reivindicação de créditos); 5) mitigue (failover, rollback, escalonamento); 6) execute post‑mortem com lições aprendidas e exija do fornecedor relatório detalhado e o cálculo usado para mensurar o tempo de indisponibilidade.

Que perguntas devo fazer ao fornecedor antes de assinar um SLA de 99,97%?

Checklist: como medem uptime (endpoints e frequência), histórico real de disponibilidade, arquitetura e redundâncias, limites e exclusões do SLA, janelas de manutenção e prazos de aviso, tempo de resposta e caminhos de escalonamento em incidentes, formatos e periodicidade de relatórios, possibilidade de verificação por sondas independentes e termos de compensação. Peça provas históricas ou um período de teste e alinhe seus SLOs operacionais ao contrato.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.