Diagnóstico Disco Falho mdadm: Guia Linux Completo

Você entra no servidor às 3 da manhã porque o monitoramento disparou um alerta vermelho e, ao verificar o status do armazenamento, encontra a mensagem mais temida por qualquer administrador de sistemas: disco falho. O coração acelera. O silêncio do data center parece gritar. Em segundos, você percebe que um dos componentes físicos do seu RAID está com defeito e que a janela para agir é estreita antes que a redundância se esgote.

Essa é a realidade nua e crua da infraestrutura crítica. Muitos profissionais acreditam que o RAID protege contra falhas de hardware de forma automática e absoluta, mas a verdade é que um disco falho exige intervenção humana imediata para evitar a perda total de dados. A recuperação não é mágica; é um processo técnico que demanda precisão, conhecimento das ferramentas do sistema e calma sob pressão.

Neste post:

Identificação Inicial do Problema
Verificação com mdadm
Remoção Segura do Drive Defeituoso
Substituição Ativa e Recuperação
Validação do Status do RAID
Perguntas frequentes
Conclusão

Neste guia técnico, vamos detalhar o passo a passo para diagnosticar, substituir e recuperar um array RAID Linux utilizando a ferramenta padrão da indústria, o mdadm. O foco aqui não é apenas consertar o problema, mas entender o mecanismo por trás dele para que você possa replicar esse processo em qualquer ambiente de produção, minimizando o tempo de inatividade (downtime) e maximizando a integridade dos seus dados.

Identificação Inicial do Problema

Antes de tocar em qualquer comando no terminal, é crucial confirmar que o problema é realmente lógico e não apenas um erro de conexão ou uma instabilidade temporária. O primeiro passo é verificar os logs do sistema. Em distribuições baseadas em Debian e RHEL, os logs do kernel são seus melhores aliados nesse momento.

Utilize o comando dmesg ou consulte o arquivo /var/log/syslog (ou /var/log/messages) buscando por mensagens de erro associadas às interfaces SCSI, SATA ou NVMe. Você provavelmente encontrará linhas indicando "I/O error", "sector read failure" ou alertas SMART que preveem a falha iminente. Se o sistema operacional já não reconheceu o dispositivo como removido, é possível que o disco ainda esteja listado, mas em estado degradado.

Além dos logs, verifique a saúde física do drive se você tiver acesso ao hardware. LEDs de status na baía do disco costumam indicar falhas com luzes vermelhas ou amarelas piscantes. No entanto, não confie cegamente nos LEDs; eles podem falhar assim como o próprio disco. A confirmação deve vir pelo software.

Verificação com mdadm

Agora que temos indícios de falha, precisamos da confirmação oficial do nível de RAID. O mdadm (Multiple Devices Admin) é a utilidade de linha de comando padrão para gerenciar arrays RAID no Linux. Ele oferece visibilidade profunda sobre o estado dos dispositivos, a sincronização e a integridade dos dados.

O comando fundamental para este diagnóstico é:

cat /proc/mdstat: Este arquivo virtual mostra o status em tempo real dos arrays RAID. Procure por indicadores como [U_U] ou [UU_], onde o "U" representa um disco funcionando e o "_" representa um disco ausente ou falho.
mdadm --detail /dev/mdX: Substitua "X" pelo número do seu array (ex: md0, md1). Este comando fornece informações detalhadas sobre cada dispositivo membro, incluindo o número do slot, o estado atual e se o disco está marcado como "faulty".

Ao rodar o --detail, você verá uma seção chamada "State". Se estiver escrito "degraded", significa que o array está operando com menos discos do que o ideal, mas ainda funcionando. Identifique qual dispositivo está listado como "faulty" ou "removed". Anote o nome completo do dispositivo, como /dev/sdb ou /dev/nvme1n1.

É importante notar que alguns discos podem estar em estado "spare" (reserva) ou falhando silenciosamente. O mdadm pode não marcar um disco como falho imediatamente se ele ainda responder a requisições lentas, mas o SMART poderá indicar setores ruins. Nesse caso, a substitção preventiva é recomendada.

Remoção Segura do Drive Defeituoso

Com o disco identificado, o próximo passo é removê-lo logicamente do array antes de qualquer manipulação física. Nunca retire um disco fisicamente enquanto ele ainda estiver ativo no array RAID. Isso pode corromper metadados ou causar uma falha catastrófica se o sistema tentar reconstruir dados em um disco que acabou de ser desconectado.

Atenção Crítica: Certifique-se ao milímetro de qual dispositivo está removendo. Remover o disco errado significa perder acesso aos dados. Se tiver dúvida, verifique o tamanho do disco e a ordem dos slots no mdadm --detail.

O comando para remover o disco falho do array é:

mdadm /dev/mdX --remove /dev/sdY

Substitua /dev/mdX pelo seu array e /dev/sdY pelo disco falho. O sistema deve responder confirmando a remoção. Se o disco estiver em estado de erro grave e o Linux não permitir a remoção lógica, você pode precisar forçar a marcação como falha primeiro:

mdadm /dev/mdX --fail /dev/sdY

Após marcar como falho, tente novamente o comando --remove. Uma vez removido logicamente, o disco desaparece da lista de membros ativos do RAID. Agora você pode proceder com a troca física do hardware.

Substituição Ativa e Recuperação

Com o disco antigo removido, insira o novo drive no slot vazio. Na maioria dos servidores modernos com hot-swap, o sistema operacional detectará o novo hardware quase instantaneamente. Verifique se o novo disco foi atribuído ao mesmo nome de dispositivo (ex: /dev/sdb) ou se o kernel o reconheceu como um novo dispositivo (ex: /dev/sdc). Em muitos casos, após a remoção e inserção, os nomes podem permanecer estáveis, mas é prudente verificar com lsblk ou fdisk -l.

Agora vem a parte da recuperação: adicionar o novo disco ao array existente. O objetivo aqui não é criar um novo RAID, mas sim expandir o existente para restaurar a redundância.

Execute o seguinte comando:

mdadm /dev/mdX --add /dev/sdZ

Onde /dev/sdZ é o novo disco. O sistema iniciará automaticamente o processo de rebuild (reconstrução). Você pode acompanhar o progresso deste processo novamente através do arquivo /proc/mdstat. Uma linha como:

resync=PID% finish=12.3min speed=56789K/sec

Indicará que a reconstrução está em andamento. Durante esse período, o servidor estará sob maior carga de I/O. Se o array for grande e os discos forem lentos, isso pode levar horas ou até dias. Planeje essa operação para janelas de manutenção se a performance atual for crítica.

Se o novo disco tiver um tamanho diferente (maior) do que os existentes, você precisará expandir o sistema de arquivos após o rebuild completar, mas o array em si aceitará o disco maior sem problemas imediatos.

Validação do Status do RAID

Após algum tempo, verifique se a reconstrução foi concluída. Rode novamente cat /proc/mdstat. O array deve aparecer com o estado [UU] ou [UUU], dependendo do número de discos, e sem a linha "rebuild".

Em seguida, confirme a integridade total com:

mdadm --detail /dev/mdX

O estado deve ser "clean" ou "active", e todos os slots devem estar preenchidos. É altamente recomendável realizar uma verificação de integridade (scrub) para garantir que não há erros silenciosos nos dados recém-escritos ou deslocados durante o rebuild.

O comando para iniciar um scrub é:

echo check > /sys/block/mdX/md/sync_action

Isso varre todos os blocos de dados e verificações de paridade. Pode demorar bastante, mas garante que sua cópia de segurança está realmente íntegra.

Perguntas frequentes

O RAID substitui o backup?

Não. O RAID é uma solução de disponibilidade e redundância, não de backup. Ele protege contra falhas de hardware, mas não contra exclusão acidental de arquivos, corrupção de software, ransomware ou desastres físicos (incêndio, roubo). Você deve manter cópias isoladas e versionadas dos seus dados.

Posso trocar o disco enquanto o servidor está ligado?

Sim, se o seu servidor suportar hot-swap e o sistema operacional estiver configurado corretamente com drivers que permitem a detecção de inserção/remoção em tempo real. No Linux, isso é nativo para a maioria das interfaces SATA/SAS modernas. Sempre remova logicamente o disco antes da troca física.

O que fazer se o rebuild falhar?

Se o processo de reconstrução falhar ou se o novo disco for rejeitado, verifique a compatibilidade dos discos (mesmo tamanho ou maior, preferencialmente mesma rotação e tecnologia). Verifique os logs do kernel para erros de hardware. Em casos raros, pode ser necessário formatar o novo disco antes de adicioná-lo ao array, embora o mdadm geralmente lidere isso automaticamente.

Devo substituir todos os discos do RAID?

Se um disco falhou, é provável que outros estejam próximos do fim da vida útil, especialmente se tiverem a mesma idade e uso. Para arrays grandes (RAID 5 ou 6), a reconstrução coloca uma carga enorme nos discos restantes, aumentando o risco de uma segunda falha durante o rebuild. Muitos especialistas recomendam substituir todos os discos por lotes para garantir a longevidade do array.

Como evitar perda de dados durante a troca?

A chave é ter um backup recente e válido antes de iniciar qualquer procedimento. Além disso, evite operações de escrita pesada no servidor durante o rebuild. Se possível, coloque o serviço em modo de manutenção para reduzir a carga de I/O e aumentar a velocidade de reconstrução.

Conclusão

Diagnostico de disco falho não precisa ser um pânico. Com o domínio das ferramentas do Linux, especialmente o mdadm, você transforma uma crise potencial em uma rotina de manutenção previsível. A chave está na identificação rápida, na remoção lógica segura e na paciência durante a reconstrução.

Lembre-se: a infraestrutura é o pilar do seu negócio. Um servidor com RAID degradado é uma bomba-relógio. Agir rapidamente e seguir os protocolos técnicos preserva não apenas seus dados, mas a confiança dos seus clientes e a estabilidade da sua operação. Para garantir que sua infraestrutura esteja sempre resiliente e pronta para esses cenários, conte com soluções de hospedagem robustas e monitoramento contínuo da Toda Solução.