ouro.capital
||
pix

Disaster Recovery para Integrações Pix: RTO e RPO em Pagamentos Críticos

2024-09-10·8 min read·Matheus Feijão

Ponto-chave

Garantir RPO zero e RTO em minutos nas integrações Pix exige arquiteturas ativa-ativa e replicação síncrona. O Banco Central pune rigorosamente a indisponibilidade, tornando o Disaster Recovery o principal diferencial competitivo para PSPs e grandes varejistas.

Imagine a seguinte cena: uma sexta-feira de Black Friday, 19h. O volume de transações no seu gateway de pagamentos atinge o pico histórico. Subitamente, o link principal com o Sistema de Pagamentos Instantâneos (SPI) do Banco Central cai. Seu sistema tenta reconectar. Falha. Os segundos passam. Carrinhos de compras são abandonados. Clientes migram para o concorrente. O prejuízo na casa dos milhões se acumula em tempo real.

Essa não é uma distopia tecnológica. É a realidade brutal da infraestrutura financeira brasileira. O Pix processa mais de 160 milhões de transações diárias. Operar em alta escala nesse ambiente exige muito mais do que servidores potentes; exige uma estratégia de Disaster Recovery (DR) blindada.

Quando conversamos com diretores de tecnologia (CTOs) de gigantes como Nubank, Mercado Pago e Stone, o discurso é unânime: a resiliência deixou de ser apenas um requisito técnico para se tornar o pilar central da sobrevivência no mercado de pagamentos. Não existe margem para erro quando o dinheiro do cliente está no limbo digital.

Para entender como o mercado de alto desempenho lida com apagões tecnológicos, precisamos mergulhar em duas siglas que tiram o sono de qualquer engenheiro de confiabilidade (SRE): RTO (Recovery Time Objective) e RPO (Recovery Point Objective). E quando falamos de Pix, as regras do jogo são implacáveis.

O custo real da indisponibilidade no ecossistema Pix

Vamos aos números brutos. Segundo dados recentes do Banco Central, o Pix atinge picos que ultrapassam 5.000 transações por segundo (TPS). Se um Provedor de Serviços de Pagamento (PSP) com 10% de market share sai do ar por apenas 5 minutos, estamos falando de 150.000 transações não processadas. Com um ticket médio de R$ 200, isso representa R$ 30 milhões travados. O impacto não é apenas financeiro; a crise de reputação nas redes sociais é instantânea.

Historicamente, o mercado brasileiro estava acostumado com janelas de manutenção de TED e DOC, que só funcionavam em horário comercial. O Pix destruiu essa zona de conforto. A exigência de operação 24/7/365 significa que trocar o pneu com o carro a 200 km/h virou rotina.

Instituições que não conseguem manter seus sistemas no ar sofrem penalidades severas. O Banco Central monitora ativamente o Índice de Qualidade de Serviço (IQS) de cada participante do SPI. Um rebaixamento nesse índice resulta em multas diretas, restrições operacionais e, em casos extremos, a suspensão do direito de operar no sistema.

Se você opera um e-commerce ou um gateway, preste atenção aqui: a indisponibilidade do seu parceiro de pagamentos é, na visão do seu cliente, uma falha sua. A fricção gerada por um QR Code que não carrega ou um "Copia e Cola" que retorna erro de timeout resulta em uma taxa de abandono de carrinho que chega a 40%, segundo relatórios do varejo digital brasileiro.

RPO Zero: Por que perder um payload não é opção

O RPO (Recovery Point Objective) define a quantidade máxima de dados que uma empresa tolera perder durante uma falha. Para uma rede social, perder os últimos 5 segundos de curtidas é irrelevante. Para um sistema integrado ao Pix, o RPO deve ser estritamente zero.

Perder um payload significa que o dinheiro saiu da conta do pagador, mas o sistema do recebedor não registrou a transação. O resultado? O clássico e temido problema de conciliação financeira. O cliente mostra o comprovante do banco, mas o caixa da loja física ou o sistema do e-commerce afirma que a transação não existe.

A engenharia por trás do RPO Zero

Para garantir que nenhum bit seja perdido, as fintechs brasileiras adotam arquiteturas de replicação síncrona. Funciona assim: quando um evento de pagamento entra no sistema, ele só retorna a confirmação (HTTP 200 OK) após o dado ser gravado simultaneamente em, pelo menos, dois data centers físicamente isolados (Zonas de Disponibilidade).

Além disso, a implementação impecável do EndToEndId (o identificador único e universal de cada transação Pix) atua como a chave de idempotência definitiva. Se houver uma falha de rede exatamente no milissegundo em que o BACEN envia a confirmação para o seu webhook, seu sistema deve ser capaz de reconsultar a transação e processá-la sem duplicidade. A idempotência salva as operações financeiras do caos absoluto.

Bancos de dados modernos, distribuídos globalmente — como Amazon Aurora, Google Cloud Spanner ou CockroachDB —, são as armas escolhidas pelas grandes operações de pagamentos no Brasil. Eles garantem a consistência ACID (Atomicidade, Consistência, Isolamento e Durabilidade) mesmo quando cabos de fibra ótica são rompidos ou servidores pegam fogo.

RTO em minutos: A arquitetura de resiliência ativa-ativa

O RTO (Recovery Time Objective) mede o tempo que seu sistema leva para voltar a operar após um desastre. O Manual de Tempos do Pix estipula que o SLA mínimo de disponibilidade para participantes diretos é de 99,9%. Na matemática da infraestrutura, isso permite no máximo 43 minutos e 49 segundos de indisponibilidade por mês.

Para atingir um RTO na casa dos segundos ou poucos minutos, a estratégia de "Disaster Recovery Tradicional" — onde um data center fica dormindo (ativo-passivo) esperando o principal cair — está morta. Ela é lenta demais. O tempo de subir bancos de dados, reconfigurar DNS e aquecer caches ultrapassa fácilmente o limite tolerado pelo BACEN.

O padrão ouro: Multi-Region Active-Active

A resposta do mercado foi a adoção em massa de arquiteturas ativa-ativa. Observamos que os principais players dividem seu tráfego de produção entre duas ou mais regiões de nuvem (por exemplo, AWS São Paulo e AWS Virginia, ou combinando AWS e GCP). Ambos os ambientes processam transações simultaneamente.

Se a região A sofre um apagão, o Global Load Balancer detecta a falha via health checks em milissegundos e redireciona 100% do tráfego para a região B. O cliente final percebe, no máximo, uma leve lentidão em uma única requisição. O RTO, neste cenário, é práticamente invisível.

Implementar isso custa caro. Exige engenharia de tráfego complexa, resolução de conflitos de banco de dados (split-brain) e testes contínuos. Contudo, comparar o custo da infraestrutura redundante com o custo de uma hora fora do ar na Black Friday torna a decisão óbvia para qualquer conselho de administração.

A lupa do BACEN: Resolução 85 e Resolução CMN 4.893

O Banco Central do Brasil não deixa a resiliência à mercê da boa vontade das empresas. A regulação é dura e específica.

A Resolução BCB nº 85, que institui o regulamento do Pix, traz diretrizes claras sobre a capacidade e a disponibilidade técnica. Mas é a Resolução CMN nº 4.893 (e sua correspondente para instituições de pagamento, a BCB nº 85/2021 sobre segurança cibernética) que dita as regras do jogo para o Disaster Recovery.

As instituições são obrigadas a manter planos de continuidade de negócios documentados, testados periodicamente e auditáveis. O BACEN exige relatórios detalhados sobre incidentes relevantes. Se sua fintech sair do ar por um ataque de DDoS ou falha no banco de dados e você não tiver um plano de recuperação executado conforme o regulamento, as sanções vão de multas milionárias à intervenção direta.

Analisamos os relatórios de instabilidade dos últimos dois anos e notamos um padrão: as empresas que sofreram as piores punições regulatórias não foram aquelas que falharam, mas aquelas que demoraram horas para restaurar o serviço por falta de um plano de DR testado.

Implicações práticas: Como estruturar sua operação

Se você está desenhando ou refatorando uma integração Pix para sua empresa, a teoria precisa virar código. Aqui estão as práticas que separam os sistemas amadores das operações de grau institucional.

1. Circuit Breakers e Degradação Elegante

Quando o serviço de um terceiro falha, seu sistema não pode travar junto. A implementação de padrões de Circuit Breaker (como o Resilience4j no ecossistema Java) impede que falhas em cascata derrubem sua infraestrutura. Se o DICT (Diretório de Identificadores de Contas Transacionais) do BACEN apresentar lentidão, seu sistema deve interromper as chamadas temporariamente e devolver uma mensagem amigável ao usuário, evitando o esgotamento de threads nos seus servidores.

2. Mensageria Desacoplada com Kafka ou RabbitMQ

Nunca faça processamento síncrono pesado na mesma thread que recebe o webhook do Pix. O BACEN exige que você responda ao webhook rápidamente. Use serviços de mensageria como Apache Kafka para enfileirar as confirmações de pagamento. Se o seu banco de dados principal cair, as mensagens ficam seguras no Kafka (que possui seu próprio esquema de replicação) até que o sistema retorne, garantindo o RPO Zero.

3. Chaos Engineering

Não espere o desastre acontecer para descobrir se o seu DR funciona. Práticas de Chaos Engineering — popularizadas pela Netflix com o Chaos Monkey — já são rotina nas fintechs brasileiras. Equipes de engenharia injetam falhas propositais em produção (derrubam pods do Kubernetes, cortam acesso a bancos de dados) em horários controlados para validar se os alertas disparam e se o failover automático age conforme o esperado.

O futuro da resiliência com o Pix Automático

A agenda do Banco Central não para. Com o lançamento iminente do Pix Automático e as inovações contínuas do Open Finance, a volumetria de requisições nos servidores das instituições financeiras vai explodir. Transações agendadas e pagamentos recorrentes criarão picos de processamento nas madrugadas e inícios de mês que testarão os limites de qualquer arquitetura atual.

Investir em Disaster Recovery para integrações Pix não é mais um projeto de conformidade regulatória. É uma apólice de seguro sobre a receita da companhia. A diferença entre um líder de mercado e uma empresa que perde clientes a cada instabilidade reside na capacidade técnica de abraçar o caos e manter o dinheiro fluindo. A resiliência, hoje, é a verdadeira moeda de troca do mercado financeiro brasileiro.

Perguntas Frequentes

MF

Matheus Feijão

CEO & Fundador — ouro.capital

Especialista em fintech e criptoativos desde 2002. CEO da ouro.capital.