Executando verificação de segurança...
6

Google explica falha global em seus serviços de nuvem ocorrida em 12 de junho

O Google detalhou a causa da interrupção que afetou seus serviços de nuvem na quinta-feira, 12 de junho. A falha impediu que clientes do Google Cloud acessassem suas infraestruturas por pelo menos três horas. Entre os afetados estavam a Cloudflare e seus clientes.

Segundo a empresa, suas APIs — assim como as do Google Cloud — são gerenciadas por planos de controle e gerenciamento distribuídos regionalmente. Esses sistemas verificam se cada requisição está autorizada e se atende a políticas como limites de uso. O componente central desse sistema é o binário conhecido como Service Control.

No dia 29 de maio, o Google adicionou ao Service Control um novo recurso para permitir verificações adicionais de política de cota. A nova versão do binário foi distribuída por regiões, mas o trecho de código responsável por essas verificações só seria ativado após uma alteração específica de política — o que ainda não havia ocorrido. O problema é que esse trecho não contava com tratamento adequado de erros nem estava protegido por “feature flag”, mecanismo usado pelo Google para identificar falhas em ambientes de teste. Sem essa proteção, um ponteiro nulo presente no código causou falhas no binário.

O erro permaneceu inativo até 12 de junho, quando uma nova política, com “campos em branco não intencionais”, foi aplicada. Isso ativou a verificação de cota regional e disparou o trecho com o ponteiro nulo, fazendo os binários entrarem em um ciclo de falhas em todas as regiões. Como a alteração foi global, todas as implantações regionais executaram o mesmo código defeituoso.

A equipe de engenharia de confiabilidade do Google detectou o problema em dois minutos, identificou a causa em dez e iniciou o processo de recuperação em quarenta minutos. No entanto, em regiões maiores, a reinicialização simultânea dos serviços gerou uma sobrecarga na infraestrutura subjacente, agravando a situação. O Service Control não estava preparado para lidar com esse pico de demanda, o que explica a demora de quase três horas para normalização completa em algumas áreas.

O Google afirma que pretende melhorar a comunicação com os clientes durante interrupções, e garantir que sistemas de alerta e mensagens funcionem mesmo quando o Google Cloud estiver indisponível.

Carregando publicação patrocinada...