MetroCluster de A a Z (10 de 12): Testes Básicos e Troubleshooting

15 de dezembro de 2015

Após a configuração inicial do MetroCluster, recomenda-se testar todas as funcionalidades referentes ao HA, assim como os cenários de falha parciais e falha completa de um site antes de colocar o par de storages em produção.


Testes básicos após a implantação do MetroCluster

Após a configuração inicial do MetroCluster, é recomendada a realização de testes antes de colocar o ambiente em produção. Da mesma forma, é importante salvar as saídas de log durantes os testes para que possa ser criado um perfil de comportamento nos casos de falha testados. O baseline de funcionamento em estado normal pode ser obtido através dos comandos discutidos no artigo MetroCluster de A a Z (7 de 12): Verificação do Ambiente de HA.

Os seguintes testes são recomendados (testes adicionais podem ser criados para complementar o perfil):

  1. Testar a desconexão de cabos das shelves para a controladora principal
  2. Testar a desconexão de cabos entre a controladora principal e a do site de DR
  3. Desligar a força das shelves do site principal
  4. Desligar a força das controladora do site principal
  5. Testar a funcionalidade de failover e de giveback através de comandos entre o site principal e secundário
  6. Testar um DR completo desligando a força da controladora e das shelves do site principal e executando o comando cd forcetakeover -f no site secundário
  7. Testar o retorno do DR para o site principal

Troubleshooting do HA

Se durante os testes o takeover ou o giveback falharem para um par em MetroCluster, ou se o HA não for estabelecido, é necessário verificar seu status e proceder com a análise do problema de acordo com as mensagens recebidas.

Passos básicos para a análise de problemas com o HA:

1. Verificar a configuração de HA entre os nós local e remoto através do comando a seguir e observar as mensagens recebidas:

cf status

2. Com as mensagens de erro, verifique as seguintes situações:

Ar10_Img_02_MetroCluster_Troubleshooting

3. Utilizar o script da Netapp HA Configuration Checker:

  • Através do site de suporte da Netapp (support.netapp.com), vá em Downloads –> Utility ToolChest -> HA Configuration Checker (cf-config-check.cgi). Siga as instruções da página para utilizar a ferramenta.

4. Corrigir quaisquer erros de configuração apontados pelo script

5. Reinicializar o par de HA e rodar os testes de takeover e giveback novamente.

6. Se necessário, contatar o suporte da Netapp. Recomenda-se também sempre ativar a funcionalidade de auto-support dos dispositivos.

Próximo artigo da série: MetroCluster de A a Z (11 de 12): Teste de Disaster Recovery

Referências

Esta série de artigos utiliza como referências testes realizados no laboratório do Agility Tech Center e os seguintes documentos da Netapp:

  • System Administration Guide for 7-Mode (versão 8.2 do Data ONTAP)
  • High Availability and MetroCluster Configuration Guide for 7-Mode (versão 8.2 do Data ONTAP)
  • Network Management Guide For 7-Mode (versão 8.2 do Data ONTAP)
  • Best Practices for MetroCluster Design and Implementation (TR-3548)

 

 

Posts relacionados