Interrupção parcial na Cloudflare por 4 horas
Uma grande interrupção da Cloudflare, uma Rede de distribuição de conteúdo (CDN), na última quarta-feira, dia 15 de Março de 2020, foi provocada por um analista que desconectou alguns cabos que não deveria ter tocado de um rack que fornecia “toda a conectividade externa a outros datacenters do Cloudflare”.
Este importantes cabos estavam no mesmo Rack com equipamentos obsoletos que estava programado para ser desativado. Enquanto muitos serviços principais, como a rede Cloudflare assim como os serviços de segurança da empresa, não sofreram qualquer qualquer impacto, o erro afetou a API e a gerência de diversos serviços, incluindo tarefas básicas como, por exemplo, acesso ao painel de gerência de DNS. Surpreendentemente todos estes serviço ficaram foram do ar por mais de quatro horas.
CEO admite erro de desorganização
Matthew Prince, CEO da Cloudflare, descreveu o erro como “doloroso” e admitiu que “nunca deveria ter acontecido”. A empresa é bem conhecida bem como geralmente apreciada por fornecer resposta a incidentes extremamente francas. veja em https://blog.cloudflare.com/cloudflare-dashboard-and-api-outage-on-april-15-2020/ …
Ele continua explicando que “Embora a conectividade externa tenha diversos provedores com conexões a diferentes datacenters, todas as conexões passavam por apenas um patch panel, criando um único ponto físico de falha”, ele também reconheceu que a identificação dos cabos não era boa o que também contribuiu para atrasar o tempo de correção e comentou que “devemos tomar medidas para garantir que os vários cabos e painéis sejam rotulados para identificação rápida por qualquer pessoa que trabalhe para corrigir o problema.”
Mas o Cloudflare não está sozinho em passar por incidentes de data center como este. O Google Cloud recentemente admitiu que perda de pacotes e limitações de CPU em servidores em um único rack inicialmente pareciam um mistério. Uma investigação física mais próxima revelou a resposta: o rack inclinou-se devido a uma falha física em sua estrutura de sustentação. Isto ocasionou problemas de fluxo de ar assim como um superaquecimento.
Veja mais artigos como este em em https://bravotecnologia.com.br/blog