Sabia que é muito importante saber calcular os custos do tempo de inatividade não planejado? Pois é! O tempo de inatividade não planejado pode levar a consequências bem sérias. E isso inclui danos à reputação, perda de receita e custos extras de TI. Então, use as dicas a seguir para planejar o custo do tempo de inatividade não planejado na sua empresa.
É fato que o tempo de inatividade é caro para qualquer organização. Contudo, o quão caro depende de muitos fatores. Entre eles, destacam-se quanto tempo dura o tempo de inatividade, quando ele ocorre e, talvez o mais importante, se o tempo de inatividade foi planejado ou não.
Na verdade, a principal diferença entre o tempo de inatividade planejado e não planejado é que as empresas têm opções adicionais quando a interrupção do serviço é planejada. Ou seja, eles podem implementar soluções alternativas adequadas ou adiar tarefas que não são urgentes. Essa foi a situação que Frank Trovato, consultor de pesquisa de infraestrutura do Grupo de Pesquisa Info-Tech, destacou.
Entretanto, se o tempo de inatividade não for planejado, a organização não estará preparada para essas ações e os custos do tempo de inatividade não serão estritamente financeiros. Afinal, o tempo de inatividade não planejado pode resultar em perda de receita, diminuição da produtividade e até mesmo gerar um impacto negativo na reputação.
Estimar custos do tempo de inatividade não planejada
Faça uma estimativa dos custos do tempo de inatividade planejado, entendendo quais serviços podem ser afetados, direta e indiretamente. Por exemplo, se o tempo de inatividade estiver programado para atualizar o ambiente de nuvem da organização, isso colocará os bancos de dados do cliente offline? É uma dependência crítica para vendas online ou suporte ao cliente que os usuários esperam estar disponível 24 horas por dia, 7 dias por semana?
“O ‘custo’ não é apenas perda de receita, mas também danos à reputação que podem afetar as vendas futuras ou comprometer a marca. Portanto, é importante garantir que a liderança entenda os custos do tempo de inatividade planejado para que possa decidir se deve mitigar ou aceitar esse custo”, disse Trovato.
Com o potencial de causar ainda mais interrupções do que o tempo de inatividade planejado, o tempo de inatividade não planejado pode levar a custos extras de negócios e TI, disse Trovato. Do lado da TI, os custos podem envolver compras adicionais de tecnologia, serviços de suporte do fornecedor e horas extras da equipe necessárias para resolver o incidente.
Qualquer inatividade faz diferença
Então, as empresas devem tratar o tempo de inatividade planejado e não planejado como interrupções de negócios em potencial. Afinal, para a maioria das organizações, mesmo um fim de semana de tempo de inatividade planejado para manutenção tem algum impacto.
“Embora os fins de semana possam parecer oportunidades ideais para o tempo de inatividade planejado, uma ampla gama de serviços e partes interessadas ainda podem ser afetados. Isso inclui usuários de plataformas online, equipe que trabalha fora do horário para cumprir um prazo, processamento em lote executado após o expediente e assim por diante “, disse Trovato.
Portanto, a chave para um orçamento eficaz é garantir que a liderança entenda os custos do tempo de inatividade não planejado para que possa decidir se deve mitigar ou aceitá-lo.
“Esse entendimento também ajuda a definir um nível apropriado de investimento em resiliência”, disse Trovato. “Ou seja, não gaste um milhão de dólares para resolver um problema de $ 10.000.”
Afinal, da mesma forma, se o impacto potencial sobre a reputação for baixo, pode ser desnecessário implantar uma ferramenta cara de alta disponibilidade para reduzir esse risco.
“Ao invés disso, uma solução de espera que permite a recuperação em 24 horas pode ser suficiente”, disse Trovato.
Mitigar despesas com tempo de inatividade
É possível minimizar os custos de tempo de inatividade melhorando a resiliência dos sistemas mais críticos de uma organização. Contudo, construir resiliência é caro. Então a TI primeiro precisa obter insights dos líderes de negócios sobre quais aplicativos têm o maior impacto na organização.
Depois que as prioridades forem determinadas, há várias opções disponíveis para melhorar a resiliência da tecnologia. Trovato afirma que, para ajudar, é possível usar sistemas críticos de alta disponibilidade baseados em clusters ativos, migração para a nuvem e serviços de recuperação de desastres que agilizam o failover para um ambiente de espera.
Entretanto, as organizações também podem obter resiliência por meio de soluções alternativas de negócios. Basta que elas permitam que serviços essenciais continuem a funcionar enquanto a TI trabalha para recuperar sistemas danificados.
“Por exemplo, os hospitais voltarão ao processamento de pacientes em papel”, disse Trovato. “Não é o ideal, pois os dados precisarão ser compartilhados manualmente, contudo, garante que os pacientes ainda possam ser registrados e tratados.”
Os custos exatos não são tão exatos
As tentativas de atribuir um valor exato em dólares aos custos do tempo de inatividade são uma missão tola. Afinal, o impacto na receita irá variar com base em quando o incidente ocorreu e a duração da interrupção. Enquanto isso, os custos indiretos, como o impacto na reputação, são ainda menos precisos.
Por outro lado, é possível chegar a uma estimativa aproximada que permite aos planejadores dividir os impactos potenciais nas categorias alta, média e baixa. “Na prática, isso é tudo de que realmente precisamos para começar a priorizar onde investir primeiro em resiliência“, disse Trovato.
Cinco etapas essenciais para um plano de recuperação sólido
A melhor forma de lidar com custos por tempo de inatividade é ter um plano de recuperação de desastres. Contudo, antes de fazer um, é preciso percorrer as principais etapas para desenvolver um plano de recuperação de desastres. Desde a avaliação de riscos e definição de objetivos de recuperação até o próprio plano e um regime de testes para mantê-lo atualizado.
Um plano de recuperação de desastres eficaz pressupõe que o pior pode acontecer e irá acontecer. Pensar assim, é uma boa forma de economizar custos com tempo de inatividade, aliás. Afinal, as organizações enfrentam um número crescente de riscos, desde desastres naturais e falhas de energia e rede até erro humano, distúrbios civis, emergências de saúde pública e ameaças cibernéticas.
Ou seja, as falhas de TI são apenas um dos riscos para os quais os CIOs precisam se planejar. E embora desastres como inundações ou incêndios atraiam a atenção do conselho, são as ameaças cibernéticas que empurraram o planejamento de recuperação de desastres (DR) de volta à agenda. O ransomware, em particular, forçou as organizações a olhar novamente para as estratégias de backup e proteção de dados. Especialmente depois que gigantes perderam sua competitividade no mercado, mostrando o quão altos podem ser os custos com tempo de inatividade.
Dados reais
Uma pesquisa realizada na primavera de 2019 em nome da Sungard AS, uma fornecedora de recuperação de desastres e continuidade de negócios, descobriu o seguinte:
53% dos gerentes seniores acreditavam que um ataque cibernético era a coisa mais provável de interromper seus negócios. Isso veio antes das interrupções de TI (36%) e das falhas de rede (24%).
Contudo, independentemente da causa, os custos com tempo de inatividade são sempre altos. A pesquisa da Sungard AS descobriu que os custos médios com tempo de inatividade não planejado para uma empresa eram de mais de £ 1,4 milhão. Ele também descobriu que 70% dos gerentes acreditam que precisam gastar mais na continuidade dos negócios. No entanto, nenhuma quantia de gasto será eficaz a menos que seja apoiada por um plano eficaz.
Etapa 1: O que não não te mata te fortalece: Análise de risco de negócios
O primeiro estágio em qualquer projeto de recuperação de desastres deve ser avaliar os riscos que a organização enfrenta. Então, os gerentes devem vincular as avaliações de risco a uma análise de impacto nos negócios. Afinal, é apenas olhando o risco e o impacto juntos que permite ao conselho definir as prioridades da organização e também decidir sobre o tipo de medidas de proteção necessárias. Essa é também a melhor forma de mitigar os eventuais custos com tempo de inatividade.
No entanto, alguns riscos serão tão grandes, e o impacto tão alto, que somente um plano de continuidade de negócios formalizado os reduzirá. Ainda assim, para outros, um plano de recuperação em etapas pode ser aceitável. Também existem situações em que um seguro pode atender todas as necessidades da empresa.
Exemplo
Um exemplo é o planejamento de ameaças cibernéticas. Afinal, nele as empresas investem em:
- Segurança de perímetro para garantir a continuidade;
- Um plano de backup e recuperação para proteger os dados, inclusive contra malware;
- Seguro cibernético para cobrir os incidentes mais graves.
Contudo, um bom plano de recuperação de desastres vai além e considera ameaças como o acesso interrompido aos prédios,que pode ser causado por algo tão mundano como um rompimento da tubulação de água, até a interrupção do pessoal por problemas de transporte público ou até mesmo um surto de gripe. As organizações também precisam considerar os riscos da cadeia de suprimentos. É provável que um fornecedor tenha seus próprios acordos de continuidade de negócios, entretanto, suas prioridades e objetivos de recuperação podem não corresponder aos seus.
A chave não é tentar se proteger contra todas as ameaças, mas ter a imagem mais abrangente possível dos riscos que os negócios enfrentam. Contudo, também deve-se considerar sua probabilidade, quão profundamente eles afetam os negócios e quanto tempo levaria para se recuperar deles .
Etapa 2: Se puder dar errado, irá: Divisão dos riscos de TI
As falhas de TI continuam sendo uma fonte significativa de interrupções. O analista de mercado IDC calcula que metade das organizações não sobreviveria a uma interrupção que derrubasse seus sistemas centrais de TI “por um longo tempo”. Entretanto, não é fácil prever quais partes de um sistema podem falhar e o impacto da falha.
Portanto, os CIOs devem adotar uma abordagem semelhante aos riscos de TI como fazem com os riscos ambientais, humanos ou de infraestrutura. Ou seja, os especialistas devem examinar a probabilidade de falha em todos os componentes dos sistemas principais, sejam eles locais, terceirizados ou na nuvem.
Então, as equipes de TI não devem olhar apenas para o hardware, mas também para os riscos representados pela perda e corrupção de dados. E isso inclui ataques cibernéticos ou malware, e a indisponibilidade de aplicativos. Dessa forma, eles devem ser capazes de classificar os sistemas em termos de criticidade e com que facilidade eles podem ser restaurados ou recuperados.
Eventos recentes no setor bancário e aéreo mostram com que frequência um componente relativamente barato ou simples, como parte de uma rede, causa um problema muito maior.
Então, uma parte fundamental para evitar custos com tempo de inatividade é identificar esses pontos únicos de falha. Entretanto, os CIOs também precisam ter um plano para uma recuperação ordenada e, por mais estranho que pareça, para uma falha ordenada. Ou seja, a parte de TI de um plano de recuperação de negócios deve cobrir o processo de desligamento de sistemas, por exemplo, em caso de falha de energia ou ataque cibernético. Dessa forma, as equipes de TI sabem como devem priorizar seus próprios recursos durante e após um incidente.
Etapa 3: Através da janela: Definição dos objetivos de recuperação
As análises de impacto nos negócios e avaliações de risco, por sua vez, definirão as principais métricas para o plano de recuperação. Isso inclui uma compreensão dos períodos aceitáveis de tempo de inatividade e seus custos. Ou seja, algo que só pode ser calculado em discussão com a empresa.
Portanto, a equipe de TI precisa definir um objetivo de ponto de recuperação (RPO) e um objetivo de tempo de recuperação (RTO) para cada sistema-chave e, se necessário, para cada componente-chave. O RTO é quanto tempo a empresa tem para se recuperar, ou seja, a janela de recuperação. Já o RPO define o quanto a organização precisa voltar para recuperar os dados.
No entanto, essas métricas variam de sistema para sistema e às vezes podem ser difíceis de conciliar. Uma organização com grandes volumes de dados históricos valiosos pode ter dificuldades com um RTO curto, portanto, é necessário hierarquizar a recuperação de dados.
Esses, por sua vez, estão vinculados a medidas para garantir a resiliência e a disponibilidade do aplicativo. Os especialistas do setor apontam para janelas de recuperação cada vez mais estreitas. Especialmente à medida que as empresas, impulsionadas por seus clientes, tornam-se cada vez menos tolerantes com o tempo de inatividade.
Em que focar?
Apenas algumas empresas podem ter disponibilidade de para todos os sistemas. Portanto, seu plano de recuperação de desastres provavelmente consistirá em medidas de resiliência, disponibilidade e continuidade de negócios, junto com estratégias de backup e recuperação e um grau de falha gerenciada.
Isso pode incluir planos de contingência, como funcionários trabalhando em casa usando aplicativos baseados em nuvem e telefones celulares, até o acesso a locais de continuidade de negócios de ponta. Felizmente, o backup de dados de aplicativos de nuvem para nuvem e o backup de dados locais para a nuvem estão ajudando empresas de todos os tamanhos a se tornarem mais resilientes.
Etapa 4: Comando e controle: Estratégia de resposta
A TI é muito mais útil quando há pessoas disponíveis para operá-la ou usá-la. Afinal, a recuperação de desastres é o desafio arquetípico de “pessoas, processos e tecnologia”.
Então, a menos que a organização seja pequena o suficiente, ou que a interrupção seja breve o suficiente, para sobreviver com serviços baseados em nuvem e por meio de trabalho remoto, a empresa precisará considerar locais de trabalho alternativos e como mover a equipe e a tecnologia para lá.
Se a interrupção afetar um data center e o failover de sistemas para um local secundário, a TI precisará trabalhar para restaurar o local principal. Ou, até mesmo, para encontrar um novo, bem como garantir que o backup do local de failover, agora único, também seja feito. Então, mesmo questões aparentemente triviais, como a emissão de novos cartões de identificação, podem se tornar problemas significativos em uma emergência.
A principal forma de conter um desastre e garantir uma recuperação eficaz é manter boas comunicações. Portanto, a empresa deve, com antecedência, nomear uma pessoa para liderar a resposta ao desastre. Não precisa ser o CIO e provavelmente não deveria ser o CEO. Esse indivíduo também não precisa ser a pessoa que escreveu o plano de DR, contudo precisa estar familiarizado com ele.
Para evitar custos com tempo de inatividade, a equipe de resposta a desastres deve incluir:
- Especialistas externos de TI;
- Funcionários do RH;
- Comunicações jurídicas e corporativas;
- Representantes de operações de negócios.
Crucialmente, a equipe deve ter uma maneira de se comunicar em uma emergência e, idealmente, participar de quaisquer exercícios de DR.
Etapa 5: Planeje falhar: Testando o plano de resposta
A recuperação de desastres ou exercícios de continuidade de negócios podem ser perturbadores. No entanto, planos eficazes de DR precisam ser testados, revisados e atualizados. Inclusive, a pior coisa que uma empresa pode fazer é investir em um plano de DR e, em seguida, deixá-lo na prateleira.
“As empresas podem ter planos e procedimentos escritos, contudo, eles podem não ser práticos ou amplamente conhecidos e, portanto, não são realmente aplicados em uma crise”, diz Samuel Ingrey, um especialista em recuperação de desastres da PA Consulting.
Portanto, as empresas precisam de uma estrutura de tomada de decisão clara e de manuais que foram acordados e refinados por meio de prática e testes. Também deve-se priorizar abordagens fáceis de entender, como uma estrutura de comando de ouro, prata e bronze. Afinal, isso é mais prático para as empresas durante um desastre do que um manual detalhado de 100 páginas.
Enfim, para realmente evitar custos com tempo de inatividade é preciso testar. Afinal, apenas testando que a empresa saberá se o plano funciona e se é suficientemente resistente para funcionar sob pressão. Então, simular e testar os sistemas de comunicação é a melhor maneira de expor qualquer fraqueza. As equipes podem, então, alimentar os insights obtidos na fase de teste de volta à avaliação de risco e à análise de impacto nos negócios, ajustando o plano à medida que avançam.