O apagão de sistemas online que o planeta vive nesta sexta-feira serve para nos lembrar do risco que é depender de poucos e grandes players na área de tecnologia.
A Azure, empresa de cloud computing da Microsoft que foi impactada pela falha na atualização de um sistema de segurança, é uma das três gigantes que hospedam praticamente toda a internet na nuvem – junto com a AWS, da Amazon, e o Google Cloud.
– A internet está cada vez mais centralizada, e deveria ser ao contrário. Colocamos todos os ovos em uma cesta só - diz Felipe Moura, chief technology officer da Dex01&On2, uma empresa de desenvolvimento de soluções.
– Isso (concentração em poucos players), somado ao fato de que tudo está na nuvem, pois ninguém mais tem servidores próprios, cria as condições para esse efeito borboleta gigante – concorda o CTO da Scunna, que vende soluções de segurança, Ricardo Dastis.
O episódio de hoje ilustra como corremos um risco muito grande originado em ações pequenas (neste caso, uma atualização de sistema de segurança): imagine uma pirâmide de ponta-cabeça.
A saída, entretanto, não é dar passos atrás e voltar ao tempo em que atualizações de segurança, como a que gerou o caos de hoje, precisavam ser feitas máquina por máquina. A automatização é saudável e necessária, mas na opinião dos especialistas, o que faltou neste episódio foram mais camadas de homologação, ou teste, antes de rodar a solução a todo o sistema. Ou seja: propagar a atualização em etapas, como as ondas geradas por uma pedra jogada na água.
– Eles certamente têm essa camada de teste, mas faltou algo – observa Felipe.
“Eles” são a CrowdStrike, a companhia de cibersegurança que disparou uma atualização nesta madrugada para o CrowdStrike Falcon. O update teve um defeito que afetou os clientes deles que também são usuários do Windows (Microsoft), mas não impactou sistemas Mac nem Linux. A solução, segundo o CEO da empresa, foi encontrada e disparada horas depois.
O sistema da CrowdStrike funciona como um guarda na porta de entrada de um sistema ou rede, para evitar ataques. Com a falha, a porta ficou trancada para todos os clientes que usam Windows, e ninguém pode entrar. Na prática, o sistema tenta reiniciar, não consegue e fica preso na “tela azul da morte”.
– O ideal seria ter um backup, um segundo sistema de segurança, para evitar de trancar tudo para todo mundo. O plano B não poderia ser simplesmente liberar tudo – explica Felipe.
– Um alto nível de previsibilidade permite ter alto nível de automação da resposta, como neste caso. Mas a resposta não pode ser tão automática que bloqueie centenas de milhares de usuários ao mesmo tempo – completa Ricardo.
A Microsoft mantém uma página de atualização da correção do bug.