Observabilidade em Sistemas Pix: Métricas, Traces e Alertas que Realmente Importam
Ponto-chave
Monitorar a média de latência no Pix é uma armadilha matemática que oculta falhas em horários de pico. A estabilidade exige rastreamento distribuído ancorado no endToEndId e foco cirúrgico no percentil 99 (p99) para garantir o SLA de 10 segundos ditado pelo Banco Central.
Mais de 168 milhões de transações em um único dia. Esse foi o recorde triturado pelo Pix no final de 2023. O sistema de pagamentos instantâneos do Banco Central (BACEN) engoliu o mercado financeiro tradicional e mudou a física do dinheiro no Brasil. Se você opera um e-commerce, um gateway de pagamentos ou uma fintech, preste atenção aqui: uma falha silenciosa na sua infraestrutura Pix custa milhares de reais por minuto. E pior, custa a confiança do seu usuário.
Nós acompanhamos os bastidores de engenharia das maiores instituições de pagamento do país. Quando o sistema cai durante uma Black Friday ou no quinto dia útil, o pânico nas salas de guerra (war rooms) é palpável. O cliente não quer saber se o problema está na sua API, no seu provedor de nuvem ou no Sistema de Pagamentos Instantâneos (SPI) do Bacen. Ele só vê a rodinha do aplicativo girando infinitamente.
Para evitar o colapso, não basta ter um dashboard bonito piscando em verde e vermelho. Monitoramento passivo morreu. A engenharia financeira moderna exige observabilidade profunda. Vamos dissecar exatamente quais métricas, traces e alertas separam os players amadores de gigantes como Nubank, Mercado Pago e Itaú na arena do Pix.
O Risco Invisível: Quando o Pix Cai, a Receita Sangra
Antes do Pix, o mercado operava no ritmo letárgico de TEDs e DOCs. Lotes processados a cada meia hora, janelas de liquidação restritas ao horário comercial, feriados bancários. O monitoramento refletia essa lentidão. Se um arquivo de remessa atrasasse quinze minutos, ninguém notava.
O Pix rasgou esse manual. Ele é um sistema orientado a eventos (event-driven), operando 24 horas por dia, 7 dias por semana, 365 dias por ano. A expectativa do usuário é a instantaneidade absoluta. Uma transação típica de Pix envolve múltiplas pernas de rede: o aplicativo do pagador, o Provedor de Serviço de Pagamento (PSP) de origem, o Diretório de Identificadores de Contas Transacionais (DICT), o SPI no Banco Central, o PSP recebedor e, finalmente, a notificação push no celular do lojista.
Qualquer engasgo de rede, lentidão no banco de dados ou erro de parsing no XML da mensagem ISO 20022 derruba o castelo de cartas. Nós vimos e-commerces perderem até 40% das vendas em uma noite porque o timeout configurado na comúnicação com o adquirente estava conflitando com o timeout do próprio Bacen. Dinheiro trocou de mãos no banco, mas a loja cancelou o pedido. O resultado? Chargebacks operacionais, clientes furiosos no Reclame Aqui e prejuízo direto no balanço financeiro.
As Três Camadas da Observabilidade no Pix
Nossa análise técnica das melhores práticas de Site Reliability Engineering (SRE) no ecossistema financeiro revela que a observabilidade eficaz do Pix se apoia em três pilares simultâneos. Ignorar um deles é pilotar um Boeing 737 com os olhos vendados.
Métricas Douradas (Golden Signals) e a Ilusão da Média
Se você abrir o Grafana ou o Datadog do seu time agora, procure as quatro métricas douradas do Google SRE adaptadas para o Pix: Latência, Tráfego, Erros e Saturação.
O erro mais grotesco que observamos nas fintechs iniciantes é monitorar a latência média (average latency). A média é uma mentira matemática. Imagine que seu PSP processa 1.000 transações por segundo (TPS). A latência média é de 200 milissegundos. Parece ótimo, certo? Mas o percentil 99 (p99) está batendo 12 segundos. Isso significa que 1% das suas transações — 10 transações a cada segundo, 36.000 por hora — estão falhando por timeout. A média oculta o sofrimento real da ponta.
Você precisa monitorar agressivamente o p95 e o p99 de latência. O Bacen exige tempos rigorosos. A consulta de uma chave no DICT deve ocorrer em frações de segundo. A liquidação via mensagem pacs.008 no SPI tem SLAs estritos. Se o seu p99 ultrapassa 5 segundos, você já está flertando com o desastre.
Taxas de Falha e Códigos do Bacen
Monitorar HTTP 500 (Internal Server Error) é o básico do básico. No mundo do Pix, você precisa observar as taxas de falha em nível de negócio. Quantas transações foram rejeitadas com o código de erro AB03 (Liquidação não autorizada) ou AC03 (Chave Pix inválida)?
Um pico repentino de erros de chave inválida pode não ser um problema na sua infraestrutura, mas sim um ataque de enumeração de chaves (fraudadores testando CPFs em massa no DICT). Se você não tem um alerta específico para a volumetria de erros de negócio, a área de prevenção à fraude vai descobrir o problema tarde demais, e o Bacen baterá na sua porta exigindo explicações.
Distributed Tracing: O Fio de Ariadne do Dinheiro
Encontrar a causa raiz de um erro no Pix apenas lendo logs de texto é como procurar uma agulha num palheiro no escuro e com luvas de boxe. É aqui que entra o Rastreamento Distribuído (Distributed Tracing).
Ferramentas baseadas em OpenTelemetry (como Jaeger ou Honeycomb) são inegociáveis. Quando um cliente clica em Pagar, o front-end deve gerar um Trace ID. Esse ID viaja pelos microserviços de autenticação, saldo, validação de fraude e chega ao gateway do SPI.
Mas o verdadeiro pulo do gato no Pix é a amarração dos identificadores de negócio. Toda transação Pix possui um endToEndId (um código alfanumérico único de 32 caracteres gerado pelo PSP pagador) e um txId (identificador da transação no e-commerce). A sua infraestrutura de observabilidade deve obrigatoriamente injetar o endToEndId nas tags do trace. Se um cliente liga no suporte reclamando que o dinheiro saiu da conta mas não chegou no destino, o operador cola o endToEndId na ferramenta de APM (Application Performance Monitoring) e vê exatamente em qual milissegundo a transação engasgou: se foi na assinatura digital via mTLS, na fila do Kafka ou aguardando o recibo pacs.002 do Banco Central.
O Acordo de Nível de Serviço (SLA) do Banco Central
O Banco Central do Brasil não perdoa amadorismo. O Regulamento do Pix e o Manual de Tempos estabelecem limites que fazem engenheiros suarem frio. Resumo rápido da regra do jogo: 99% das transações devem ser concluídas em até 10 segundos.
Na prática, o mercado opera muito mais rápido que isso. Os grandes adquirentes como Stone e PagSeguro liquidam a imensa maioria das transações em menos de 2 segundos. O tempo máximo absoluto (hard timeout) permitido pelo ecossistema antes de uma transação ser sumariamente descartada é de 40 segundos.
Se o seu sistema atua como participante direto ou indireto e começa a estourar esses tempos rotineiramente, as consequências são severas. O Bacen monitora ativamente o Índice de Qualidade de Serviço (IQS) de cada instituição. Quedas frequentes de disponibilidade resultam em multas pesadas, suspensão cautelar de operações e um dano reputacional irreversível.
Alertas que Acordam o SRE (e os que Podem Esperar)
Nós conversamos com Tech Leads que sofriam de fadiga de alertas (alert fatigue). O PagerDuty tocava de madrugada porque o uso de CPU de um container chegou a 80%. Isso é lixo operacional. O cliente não compra CPU, o cliente compra a conclusão do Pix.
Sua estratégia de alertas deve ser focada no impacto ao negócio (Symptom-based alerting). Um engenheiro só deve ser acordado às 3h da manhã se houver ameaça real à receita ou ao SLA do Bacen.
Alertas Críticos (P1 - Acorde a equipe agora):
- Queda abrupta (Drop) no TPS de liquidações Pix confirmadas (indica falha geral de comúnicação com o SPI ou queda do banco de dados core).
- Taxa de erro (Error Rate) de liquidações ultrapassando 1% nos últimos 5 minutos.
- Latência p99 do fluxo de pagamento excedendo 8 segundos (estamos prestes a violar o SLA do Bacen e gerar timeouts em cascata).
- Falha no processo de renovação dos certificados mTLS de comúnicação com a rede do Bacen (RSFN).
Alertas de Degradação (P2/P3 - Analise no horário comercial):
- Aumento gradual de CPU ou memória nos pods de processamento assíncrono.
- Falhas pontuais em notificações de webhooks para lojistas (desde que o sistema de retry automático esteja absorvendo a carga).
- Aumento na latência média de consultas ao DICT, sem estourar os limites críticos.
Implicações Práticas: O Que Fazer na Segunda-Feira
Se você é o responsável técnico ou diretor de operações lendo isso, sua próxima reunião de planejamento precisa incluir três ações táticas.
Primeiro, audite suas métricas de latência. Garanta que seus dashboards estão exibindo histogramas e percentis (p50, p90, p95, p99), e aposente o gráfico de média simples. Use ferramentas de injeção de falhas (Chaos Engineering) em ambiente de homologação para simular o Bacen demorando 35 segundos para responder. Observe como seu sistema se comporta. Ele segura a conexão e esgota o pool de threads do banco de dados, derrubando outras operações? Se sim, implemente o padrão de Circuit Breaker imediatamente.
Segundo, unifique os logs. Garanta que o endToEndId, o CPF truncado (para conformidade com a LGPD) e o txId estejam presentes estruturalmente (em JSON) em todas as linhas de log. Isso reduz o tempo médio de resolução (MTTR) de horas para minutos.
Terceiro, revise a reconciliação assíncrona. O Pix é majoritariamente síncrono, mas falhas de rede acontecem. Se o seu sistema sofreu um timeout ao tentar ler a resposta do Bacen, o dinheiro pode ter sido transferido. Seu motor de conciliação precisa buscar ativamente o status final dessa transação via APIs de consulta para evitar o cenário tenebroso onde o cliente paga, o dinheiro entra na conta da sua empresa, mas o pedido no e-commerce consta como cancelado.
O Futuro: Pix Automático e a Explosão de Dados
O mercado hoje se prepara para o próximo tsunami: o Pix Automático, previsto para decolar de vez entre o final de 2024 e o início de 2025. Se o Pix tradicional já exige uma infraestrutura robusta, o Pix Automático multiplicará a complexidade. Teremos milhões de eventos de cobrança recorrente disparados simultaneamente nas madrugadas, exigindo processamento em lote (batch processing) de altíssima performance cruzado com a liquidação instantânea.
A observabilidade deixará de ser apenas uma ferramenta de engenharia para se tornar o coração da operação financeira. O volume de dados de telemetria gerado será colossal. Já vemos os players mais sofisticados do Brasil treinando modelos de inteligência artificial sobre os dados de tracing do OpenTelemetry para detectar anomalias de roteamento e fraudes complexas antes mesmo que o limite de timeout de 10 segundos seja atingido.
No mercado de pagamentos instantâneos, a velocidade é o produto. E você não consegue garantir a velocidade daquilo que não consegue enxergar com clareza absoluta.
Perguntas Frequentes
Matheus Feijão
CEO & Fundador — ouro.capital
Especialista em fintech e criptoativos desde 2002. CEO da ouro.capital.