Blog Agility

Restart contínuo na blade – LOG QUORUM

Restart contínuo na blade – LOG QUORUM

Observamos que alertas podem ocorrer por vários fatores. Visando auxiliar na monitoração de um BIG-IP,  este artigo busca demonstrar como solucionar em eventos em que as blades ficam alternando seus status, caso aparece o LOG de QUORUM ao afins.

Observa-se que o BIG-IP possui um mecanismo de monitoramento de hardware, software e tráfego de dados. Os eventos que ocorrem são armazenados por meio de LOG’s e divididos em categorias, como LTM, GTM, Packet Filter, Audit entre outros.

Durante o monitoramento de um BIG-IP, notamos que foram gerados LOGs de QUORUM, conforme imagem abaixo.

Tech-Tips_2015_12_Ricardo_Augusto_Poletini_Restart_contínuo_na_blade_LOG_QUORUM_01
Imagem 1: LOG

Também observamos que o status da blade fica alternando. Pode ser verificado monitorando a página inicial, próximo ao símbolo da F5, e através do status no menu System -> Cluster.

Em um ambiente Viprion C2400 com 3 blades instaladas, o funcionamento normal deve apresentar o status conforme abaixo.

Tech-Tips_2015_12_Ricardo_Augusto_Poletini_Restart_contínuo_na_blade_LOG_QUORUM_02
Imagem 2: Status OK

Porém, quando este problema ocorre, o seu status fica alternando entre Ativo, conforme imagem acima, e em “currently unavailable”, “amarelo”, conforme abaixo.

Tech-Tips_2015_12_Ricardo_Augusto_Poletini_Restart_contínuo_na_blade_LOG_QUORUM_03
Imagem 3: Status Currently Unavailable

Notamos que a blade virtual é periodicamente desvinculada do cluster vCMP, onde o processo mcpd pode restartar continuamente, devido ao grande consumo de CPU. Isso geralmente ocorre quando se utiliza Viprion com a licença de vCMP e implantamos um “vCMP guest” em uma ou mais blades, dependendo da versão utilizada.

Para uma primeira “solução temporaria”, podemos recuperar a blade afetada, reiniciando-a manualmente. Para isto, siga os passos abaixo:

  1. Conecte via linha de comando na blade afetada.
  2. Reinicie a blade com o comando abaixo.

shutdown –r now

  1. Espere a blade reiniciar e retornar para o cluster.

Observa-se que reiniciar a blade não deve apresentar um impacto negativo no sistema, porém este problema pode voltar a ocorrer após algum tempo. Para uma solução definitiva, a F5 recomenda a atualização de versão.

Conclui-se que a monitoração é uma ferramenta imprescindível em qualquer sistema. Entretanto temos que saber como proceder quando um evento ocorrer.

Um evento pode alertar sobre um problema de fonte, reboot do sistema, alto consumo de CPU, entre outros.

No caso deste artigo, conseguimos aprender como lidar caso uma blade fique flepando e vários LOGs sejam gerados, informando QUORUM. Porém a F5 recomenda uma atualização de versão para resolver este BUG.