Sumário
- Descrição
- Como identificar um IERR da CPU no log do sistema
- Como resolver um IERR da CPU
- Problemas do sistema operacional
Descrição
Geralmente, o erro interno da CPU (CPU IERR) ou o erro CPU Machine Check
não é um erro da CPU em si. Na verdade, trata-se de uma indicação de que a CPU detectou um erro no sistema ou recebeu uma instrução incorreta de um componente do sistema. Isso é causado por um evento não relacionado à CPU, como uma incompatibilidade de firmware, uma interrupção do barramento do sistema ou uma interrupção de leitura/gravação da memória. Teoricamente, o erro pode ser causado por QUALQUER componente, software ou hardware do sistema.
Este artigo apresenta as práticas recomendadas para lidar com esses erros e é válido para todos os servidores PowerEdge.
Advertência: Não remova a CPU! Os erros IERR da CPU raramente são causados por um mau funcionamento da CPU, e a referência à CPU se baseia exclusivamente em qual módulo informou o erro. Apesar do que você pode ler em alguns sites ou fóruns de solução de problemas, é fundamental não remover a CPU, a menos que você seja treinado e equipado para fazer isso.
Identificando um CPU IERR no registro de eventos do sistema
Um erro interno da CPU será exibido no registro de eventos do sistema como "CPU 1 has an internal error (IERR)" ou "CPU 2 has an internal error (IERR)".
Figura 1: DSET mostrando um CPU IERR
Resolvendo um CPU IERR
Para resolver esse erro, siga um plano estruturado de solução de problemas para determinar qual componente causou o erro e como resolvê-lo.
1.
Verifique os logs de eventos do sistema em busca de quaisquer outros erros que ocorram quase que ao mesmo tempo que o IERR da CPU.
2. Se outros erros forem identificados, resolva-os primeiro. Como solucionar os erros dependerá do erro identificado.
3. Atualize o BIOS ou iDRAC para a versão mais recente.
— A atualização do BIOS ou do iDRAC usando a interface do iDRAC é explicada neste artigo.
— Se o iDRAC não estiver disponível, outros métodos de atualização são listados no seguinte artigo tutorial.
4. Limpe o log de eventos do sistema, ou seja, no Open Manage Server Administrator ou no iDRAC (em ambos, abra o log de eventos, role até a parte inferior da tela e selecione Clear (Limpar)). Os erros IERR antigos da CPU causarão um alerta depois que o erro foi resolvido, a menos que eles sejam removidos do log de eventos do sistema.
5. Se nenhum erro for encontrado ou se o IERR da CPU retornar, desligue o sistema, remova o cabo de alimentação e mantenha pressionado o botão liga/desliga do servidor por 20 segundos antes de reconectar o cabo de alimentação e religar o sistema. Esse processo é conhecido como dissipação da eletricidade estática.
6. Se o erro persistir, entre em contato com o suporte técnico para obter assistência adicional. As opções de contato são fornecidas abaixo.
Problemas do sistema operacional
Alguns eventos do sistema operacional podem fazer com que um CPU IERR seja exibido no registro de eventos do sistema. Esses eventos incluem:
- Erros fatais do kernel,
- Interações com programas de terceiros,
- Paradas críticas do ambiente de execução; ou
- Comprometimento excessivo de recursos.
Isso acontece porque a CPU identifica o processo como não reconhecido e exibe o CPU IERR em resposta.
Se o CPU IERR for causado por um evento do sistema operacional, o registro de eventos do sistema operacional deverá ser verificado e submetido à referência cruzada com o registro de eventos do sistema do servidor para identificar o evento do sistema operacional que causou o CPU IERR. Depois que esse evento do sistema operacional tiver sido identificado, será necessário entrar em contato com o fornecedor do sistema operacional para ajudar na resolução.