Você sabe o que é failover? Não? Então está na hora de descobrir a importância desse recurso para sua TI.
Definição de Failover
Failover é a capacidade de alternar perfeita e automaticamente para um sistema de backup confiável. Ou seja, para servidores, a automação de failover inclui cabos de pulsação que conectam um par de servidores. O servidor secundário apenas descansa enquanto percebe que o pulso ou a pulsação contínua.
Como funciona
No entanto, qualquer mudança no pulso que ele recebe do servidor de failover primário fará com que o servidor secundário inicie suas instâncias e assuma as operações do primário. Então, ele envia uma mensagem ao data center ou técnico. Esta será uma solicitação para que o servidor primário seja colocado online novamente.
Ao invés disso, alguns sistemas simplesmente alertam o data center ou técnico, solicitando uma mudança manual para o servidor secundário. Este tipo de sistema é denominado automatizado com configuração de aprovação manual.
As redes de área de armazenamento (SAN) permitem vários caminhos de conectividade entre sistemas de armazenamento de dados e servidores. Ou seja:
- Há menos pontos únicos de falha;
- Redução de componentes de computador redundantes ou em espera;
- Vários caminhos para ajudar a encontrar um caminho funcional no caso de falha de componente.
Vitualização
A virtualização usa uma pseudo-máquina ou máquina virtual com software host para simular um ambiente de computador. Isso libera o failover da dependência dos componentes de hardware do sistema do servidor do computador físico.
Em suma, a redundância ou a mudança para um modo operacional de espera quando um componente principal do sistema falha deve atingir o failover. Dessa forma, pode reduzir ou eliminar o impacto negativo para o usuário.
Ou seja, alguns recursos devem estar prontos para substituir qualquer versão anteriormente ativa do sistema após seu encerramento anormal ou falha. São eles:
- Servidor de banco de dados redundante ou em espera;
- Sistema ou outro componente de hardware;
- Servidor ou rede
Afinal, o failover é essencial para a recuperação de desastres. Portanto, todos os sistemas de servidores de computador em standby e outras técnicas de backup devem ser imunes a falhas.
O que é alternância?
A alternância é basicamente a mesma operação. Contudo, ao contrário do failover, não é automática e exige intervenção humana. Então, a maioria dos sistemas de computador é apoiada por soluções de failover automáticas.
O que é um cluster de failover?
Trata-se de um conjunto de servidores de computador que, juntos, fornecem:
- Disponibilidade contínua (CA);
- Tolerância a falhas (FT);
- Alta disponibilidade (HA).
Os clusters de failover podem usar apenas hardware físico. Contudo, também podem incluir máquinas virtuais (VMs).
O processo de failover é disparado quando um dos servidores ficar inativo. Afinal, isso evita o tempo de inatividade, enviando instantaneamente a carga de trabalho do componente com falha para outro nó no cluster.
Portanto, fornecer CA ou HA para serviços e aplicativos é o objetivo principal de um cluster de failover. Os clusters CA também são chamados de clusters tolerantes a falhas (FT). Afinal, eliminam o tempo de inatividade quando um sistema primário falha. Dessa forma, permite que os usuários finais continuem usando serviços e aplicativos sem nenhum tempo limite.
Entretanto, os clusters de HA oferecem recuperação automática, tempo de inatividade mínimo e nenhuma perda de dados. Apesar disso, pode haver uma breve interrupção no serviço. Portanto, a maioria das soluções de cluster de failover inclui ferramentas de gerenciador de cluster de failover que permitem aos usuários configurar o processo.
Mais geralmente, um cluster é composto por dois ou mais servidores ou nós. Estes são normalmente conectados por software e fisicamente por cabos. Contudo, algumas implementações de failover incluem tecnologia de cluster adicional. É o caso do balanceamento de carga, processamento paralelo ou simultâneo e soluções de armazenamento.
Configurações Ativo/Ativo vs. Ativo/Standby
As configurações de alta disponibilidade (HA) mais comuns são ativo/ativo, ativo/standby ou ativo/passivo. Todas essas técnicas de implementação melhoram a confiabilidade. Contudo, cada uma atinge o failover de uma maneira diferente.
Ativo/Ativo
Um cluster de alta disponibilidade ativo-ativo geralmente é composto por pelo menos dois nós. Estes executam ativamente o mesmo tipo de serviço ao mesmo tempo. Portanto, o cluster ativo/ativo atinge o balanceamento de carga. Afinal, evita que qualquer nó fique sobrecarregado, distribuindo cargas de trabalho por todos os nós de maneira mais uniforme. Isso também melhora a resposta ao longo do tempo. Afinal, mais nós estão disponíveis. Contudo, as configurações e configurações individuais dos nós gêmeos devem ser idênticas para garantir redundância e operação contínua do cluster HA.
Os balanceadores de carga atribuem clientes a nós em um cluster com base em um algoritmo, não aleatoriamente. Por exemplo, um algoritmo round robin distribui uniformemente os clientes aos servidores com base em quando eles se conectam.
Ativo/Passivo
Em contraste, embora deva haver pelo menos dois nós em um cluster ativo/passivo, nem todos eles estão ativos. Usando um exemplo de dois nós novamente, com o primeiro nó no modo ativo, o segundo estará em espera ou passivo. Esse segundo nó é o servidor de failover, pronto para funcionar como backup caso o servidor primário ativo pare de funcionar por qualquer motivo. Enquanto isso, os clientes só se conectarão ao servidor ativo, a menos que algo dê errado.
Ativo/Standby
Já no cluster ativo/standby, os dois servidores devem ser configurados com as mesmas configurações, assim como no cluster ativo-ativo. Dessa forma, caso o servidor de failover precise assumir o controle, os clientes não serão capazes de perceber a diferença no serviço.
Obviamente, embora o nó em espera esteja sempre executando em uma configuração de espera ativa, a utilização real do nó em espera é quase zero.
Importante
A utilização de ambos os nós em uma configuração ativo/ativo se aproxima de 50-50, embora cada nó seja capaz de lidar com toda a carga. Isso significa que, se um nó em uma configuração ativo-ativo manipular consistentemente mais da metade da carga, a falha do nó pode significar degradação do desempenho.
Com uma configuração de HA ativo/ativo, o tempo de interrupção durante uma falha é virtualmente zero. Afinal, ambos os caminhos estão ativos. No entanto, o tempo de interrupção tem o potencial de ser maior com uma configuração ativo/passivo, pois o sistema precisa de tempo para alternar de um nó para o outro.
O que é um cluster de failover do SQL Server?
Um cluster de failover de servidor SQL é também chamado de cluster de alta disponibilidade. Seu papel é tornar os sistemas críticos redundantes. Ou seja, o cluster de failover SQL elimina qualquer ponto único potencial de falha. Isso inclui armazenamento de dados compartilhado e várias conexões de rede via NAS (Network Attached Storage) ou SANs.
A conexão de rede denominada pulsação, discutida acima, conecta dois servidores. Portanto, a pulsação monitora cada nó no ambiente de cluster de failover de SQL constantemente.
O que é failover de DHCP?
Um servidor DHCP depende do protocolo de configuração dinâmica de host padrão ou DHCP para responder às consultas de transmissão do cliente. Este servidor de rede atribui e fornece gateways padrão, endereços IP e outros parâmetros de rede para dispositivos clientes automaticamente.
Contudo, a configuração de failover de DHCP envolve o uso de dois ou mais servidores DHCP para gerenciar o mesmo pool de endereços. Isso permite que cada um dos servidores DHCP faça backup do outro em caso de interrupções da rede. Dessa forma, pode compartilhar a tarefa de atribuição de lease para aquele pool o tempo todo.
No entanto, o diálogo entre os parceiros de failover não é seguro. Afinal, não é autenticado nem criptografado. Na maioria das organizações, isso é desnecessariamente caro, porque os servidores DHCP geralmente existem na intranet segura da empresa.
Por outro lado, se os seus pares de failover de DHCP se comunicam através de redes inseguras, a segurança é muito mais importante. Então, configure firewalls locais para evitar que usuários e dispositivos não autorizados acessem a porta de failover. Você também pode proteger a parceria de failover de interrupção acidental ou deliberada de terceiros usando o túnel VPN entre os pares de failover DHCP.
O que é DNS Failover
O Domain Name System (DNS) é o protocolo que ajuda a traduzir entre endereços IP e nomes de host que humanos podem ler. O failover de DNS ajuda os serviços de rede ou sites a permanecerem acessíveis durante uma interrupção. Afinal, ele cria um registro DNS que inclui dois ou mais endereços IP ou links de failover para um único servidor. Dessa forma, você pode redirecionar o tráfego para um servidor redundante ativo e longe de um servidor com falha.
Em contraste, a hospedagem de failover envolve hospedar uma cópia separada do seu site em um datacenter diferente. Desta forma, nenhum dado é perdido caso uma cópia falhe.
O que é failover de servidor de aplicativos?
O failover do servidor de aplicativos é simplesmente uma estratégia de failover que protege vários servidores que executam aplicativos. O ideal é que esses servidores de aplicativos sejam executados em servidores diferentes. Contudo, é fundamental que ao menos tenham nomes de domínio exclusivos. O balanceamento de carga do servidor de aplicativos costuma fazer parte de uma estratégia que segue as melhores práticas de cluster de failover.
O que é teste de failover?
O teste de failover é um método que valida a capacidade de failover em servidores. Em outras palavras, ele testa a capacidade de um sistema de alocar recursos suficientes para a recuperação durante uma falha de servidor.
O sistema pode mover operações para sistemas de backup e lidar com os recursos extras necessários no caso de qualquer tipo de falha ou encerramento anormal? Por exemplo, o failover e o teste de recuperação avaliarão a capacidade do sistema de alimentar e gerenciar vários servidores ou uma CPU adicional quando atinge um limite de desempenho.
É mais provável que esse limite seja violado durante falhas críticas. Em destaque, encontra-se a relação entre segurança e resiliência e testes de failover.
Qual é a diferença entre failover e alta disponibilidade?
Alta disponibilidade
A alta disponibilidade é um recurso que fornece redundância e tolerância a falhas. Ou seja, consiste em um número de dispositivos conectados processando e fornecendo um serviço. Portanto, seu objetivo é garantir que esse serviço esteja sempre disponível, mesmo em caso de falha.
Por exemplo, uma empresa como a Amazon.com, que vende produtos por meio de seu site, exige que seu site esteja disponível ao público o tempo todo. Para garantir que isso aconteça, eles terão vários servidores em um cluster. Dessa forma, se um servidor falhar, os outros continuarão o processamento e assumirão a carga de processamento do servidor com falha.
Contudo, eles também forneceriam várias conexões de backup de Internet de diferentes ISPs. Assim, se um deles caísse, o backup do ISP garantiria que seu site ainda estivesse acessível na Internet. Então, eles teriam uma linha de energia separada em seu data center, de modo que, se houvesse uma falha de energia, eles teriam uma fonte de energia de backup mantendo seus recursos críticos em funcionamento enquanto resolviam o problema original.
Além disso, teriam um data center de backup em outro local (site de recuperação de desastres). Afinal, se a falha for causada por um desastre no site principal, como um terremoto, o site de backup poderia ser utilizado. Todas essas medidas preventivas garantiriam que seu site online estivesse sempre disponível e, assim, garantindo que houvesse um grau de alta disponibilidade.
Alta disponibilidade e firewalls
Em firewalls e outros dispositivos semelhantes, o recurso de alta disponibilidade é um mecanismo para manter o estado dos dispositivos sincronizados entre si. Contudo, também visa ser capaz de detectar uma falha. Afinal, se uma falha ocorresse, os dispositivos ativos saberiam sobre isso e seriam capazes de tomar a carga de processamento do dispositivo com falha.
Portanto, a alta disponibilidade habilita efetivamente dois ou mais firewalls para que cada um atue como backup para os outros firewalls. O recurso de alta disponibilidade em cada firewall será equipado para detectar falhas de várias maneiras. Assim, se uma falha for detectada, o failover instantâneo poderá ocorrer.
Contudo, em alta disponibilidade, dois firewalls geralmente são conectados por um link espelhado. Este link permite que ambos os dispositivos de firewall mantenham um estado idêntico. Um failover não ocorre realmente porque os dois firewalls estão todos prontos no estado atual. Afinal o firewall ativo apenas assume toda a carga de processamento.
Hoje, todos os grandes fornecedores, como Cisco, Checkpoint, Juniper, Fortinet, oferecem suporte a alta disponibilidade. E não apenas em seus firewalls, mas em todos os seus conjuntos de produtos.
Overview
Failover de dispositivo
Failover automático é o processo de mover serviços ativos do dispositivo principal para o dispositivo de backup quando o dispositivo principal falha. Normalmente, o dispositivo de backup continua esses serviços até que o dispositivo principal volte a funcionar. Ou seja, outro dispositivo assume o processo de failover quando um dispositivo falha. O failover dos serviços para o dispositivo de backup continuará de onde o dispositivo principal parou.
O recurso de failover permite que os firewalls de hardware tenham alguma redundância. Afinal, você teria dois ou mais firewalls de hardware configurados. Portanto, se o firewall principal falhar, o (s) firewall (s) de backup assumirão o controle. Geralmente, implementamos o failover em firewalls de hardware de ponta para redes que requerem redundância.
Link Failover
Usar a funcionalidade de failover significa que você pode ter um tráfego de processamento de link e um segundo link que só se tornará ativo se o link principal falhar. Você também pode ter essa configuração para permitir que uma empresa conecte seu firewall a mais de uma conexão de Internet. Se uma conexão cair, todo o tráfego sofrerá failover para a outra conexão de Internet. Isso eliminaria o ponto único de falha e garantiria a disponibilidade e a confiabilidade.
O failover ocorre de várias maneiras, dependendo do fornecedor. Existem algumas formas mais comuns de failover:
Link da interface desativado
Quando o dispositivo detecta um link para o dispositivo principal, ocorre um failover. Portanto, quando o link da interface não consegue se comunicar com o dispositivo de backup, ocorre um failover.
Perda de pulsação
Quando o dispositivo de backup não recebe uma pulsação do dispositivo principal por um número definido de segundos, o dispositivo de backup fará failover. Uma pulsação é um mecanismo de detecção que envia um sinal ao dispositivo principal e, se o dispositivo primário parar de responder à pulsação por um período de tempo predefinido, ocorre um failover.
Failback
Finalmente, quando a unidade principal é backup, ele fará o failback. Ou seja, retomará e assumirá o controle dos serviços da unidade de backup. Os recursos de failover também eliminam um único ponto de falha.
Servidores de failover totalmente redundantes em sites separados conectados a links de comunicação separados devem ser configurados se tolerância zero for necessária. No entanto, a desvantagem é que essa pode ser uma opção cara de implementar.
Incursão
RAID é uma solução de tolerância a falhas para discos rígidos. Geralmente é implementada em servidores. Além de fornecer redundância e tolerância a falhas, o RAID também tem um impacto positivo no desempenho, dependendo de qual nível de RAID está sendo usado. Por exemplo, no RAID nível 5, grava-se a paridade e os dados em 3 ou mais unidades. Contudo, se alguma dessas unidades falhar, as outras unidades usarão as informações de paridade para restaurar os dados da unidade com falha.
Clustering
O clustering é muito semelhante a servidores redundantes e fornece tolerância a falhas. Afinal, todos os servidores participam do processamento de um serviço simultaneamente. Um grupo de servidores é logicamente combinado em um cluster e visto como um dispositivo. Este, fornece um tipo de serviço. Se um dispositivo falhar em um cluster, os serviços continuarão porque os outros dispositivos no cluster continuarão processando os mesmos serviços que o dispositivo com falha.
Portanto, o impacto aqui será menos poder de processamento. Afinal, o cluster é um dispositivo a menos. Contudo, a alta disponibilidade é mantida. Isso porque o cluster também está fornecendo uma solução de balanceamento de carga, já que todos eles estão tomando parte da carga de processamento, bem como uma espécie de cenário de failover. Afinal, os outros dispositivos continuam a processar mesmo quando um dispositivo falha. No geral, esses dispositivos redundantes estão mantendo alta disponibilidade.
O que é redundância?
Redundância é basicamente hardware ou software extra que pode ser usado como backup se o hardware ou software principal falhar. Você pode garantir a redundância das seguintes formas:
- Clustering de carga;
- Failover;
- RAID;
- Balanceamento de carga;
- Alta disponibilidade de maneira automatizada.
Contudo, você garante uma camada mais alta de redundância quando o dispositivo de backup está completamente separado do dispositivo principal. Por exemplo, uma linha de Internet de backup é fornecida por outro provedor de ISP. Portanto, um link físico e uma conexão completamente separados da conexão principal de Internet ou uma peça redundante de hardware que reside em outro prédio.
Felizmente, existem empresas que prestam serviços de TI especializadas em failover. É o caso da Infonova, que atua há 20 anos na área. Quer saber mais, sem compromisso? Então, entre em contato conosco.