I/O Scheduler: Guia para Otimizar RAID e NVMe no Linux

Q: Devo usar o scheduler None para todos os meus discos?

Não necessariamente. O scheduler None é altamente recomendado para dispositivos NVMe e SSDs modernos de alta performance, pois transfere a responsabilidade do agendamento para o controlador do dispositivo. No entanto, se você ainda possui discos SATA antigos ou HDDs mecânicos em um pool misto, o MQ-DEADLINE ou BFQ podem ser mais adequados para otimizar a busca física. O ideal é avaliar cada dispositivo individualmente.

Q: Como saber se meu scheduler está causando gargalo?

Você pode utilizar ferramentas como iostat, dstat ou pidstat. Observe o campo %util e, mais importante, a latência média de leitura/escrita. Se o %util estiver alto (próximo de 100%) mas a latência estiver disparada, pode haver contenção na fila do scheduler. Ferramentas como blktrace permitem visualizar o fluxo exato das requisições, ajudando a identificar starvation.

Você comprou um servidor com discos NVMe de última geração, configurou um RAID 10 para máxima redundância e, ao rodar as primeiras benchmarks, se depara com uma latência que não combina com o hardware. O gargalo não é a velocidade do disco em si, mas sim como o kernel do Linux está decidindo a ordem das requisições. A maioria dos administradores ignora o I/O scheduler, assumindo que o sistema operacional já escolheu a melhor opção automaticamente. Na prática, essa suposição pode estar custando até 30% de performance em cargas de trabalho aleatórias, especialmente quando se utiliza tecnologias modernas de armazenamento.

Neste post:

O que é o I/O Scheduler e por que ele importa?
A evolução dos schedulers no Linux
Comparação de opções: BFQ, MQ-DEADLINE e NONE
O impacto do RAID na fila de I/O
Como aplicar as mudanças no Proxmox e Linux
Perguntas frequentes
Conclusão

Entender a camada de agendamento de entrada e saída é fundamental para extrair o máximo da sua infraestrutura. Em ambientes de virtualização, como o Proxmox, onde múltiplas máquinas virtuais disputam recursos de disco, um scheduler mal configurado pode transformar um servidor rápido em um gargalo de latência. Vamos desmistificar como esses algoritmos funcionam e como ajustá-los para o seu cenário específico.

O que é o I/O Scheduler e por que ele importa?

O I/O scheduler é um componente do kernel Linux responsável por gerenciar as requisições de leitura e escrita enviadas aos dispositivos de armazenamento. Sua função principal é ordenar essas requisições de forma a minimizar o tempo de busca mecânico ou eletrônico, maximizando o throughput total.

Em discos rígidos tradicionais (HDDs), a cabeça de leitura precisa se mover fisicamente para diferentes trilhas. Portanto, reordenar as requisições para agrupar acessos próximos espacialmente reduz drasticamente o tempo de latência. Já em SSDs e NVMe, não há partes móveis. A busca é eletrônica e praticamente instantânea, independentemente da localização lógica dos dados.

Ignorar a configuração do scheduler em SSDs modernos é como tentar organizar o trânsito de carros elétricos usando as regras de semáforos para caminhões a diesel: você está otimizando para uma física que não existe mais no seu hardware.

No entanto, "ignorar" não significa "deixar padrão". Mesmo sem partes móveis, os controladores NVMe e SSDs possuem limitações internas de fila e processamento. O scheduler atua como um intermediário entre a aplicação (ou o hypervisor) e o dispositivo físico. Uma configuração inadequada pode levar a starvation (inanição), onde algumas requisições ficam presas na fila enquanto outras são servidas continuamente, aumentando a latência percebida pelo usuário final.

A evolução dos schedulers no Linux

O Linux passou por uma grande reformulação na maneira como lida com I/O multi-queue (MQ). Antigamente, existiam schedulers como CFQ (Completely Fair Queuing) e anticipatory. O CFQ era conhecido por tentar distribuir justiça entre processos, o que era ótimo para desktops, mas terrível para servidores de alta performance.

Com a introdução do bloco Multi-Queue (blk-mq) no kernel 4.x, surgiram novas opções otimizadas para hardware moderno. Hoje, as opções mais relevantes para servidores, especialmente em ambientes de virtualização e storage moderno, são:

BFQ (Budget Fair Queuing): Herdeiro do CFQ, foca em justiça e baixa latência para interatividade. Excelente para desktops, mas geralmente lento demais para servidores de banco de dados.
MQ-DEADLINE: Garante que nenhuma requisição fique esperando por muito tempo (evitando starvation), priorizando a ordem temporal. É uma escolha sólida para cargas mistas.
None (No-op): Remove a lógica de reordenamento complexa, passando as requisições diretamente ao driver do dispositivo. Assume que o hardware já faz seu próprio agendamento interno.

A transição para NVMe e SSDs de alta velocidade tornou o None scheduler uma das opções mais populares para infraestrutura enterprise. O controlador NVMe possui sua própria fila profunda e algoritmos de priorização interna que muitas vezes superam a lógica do kernel Linux em termos de eficiência pura.

Comparação de opções: BFQ, MQ-DEADLINE e NONE

Para tomar a decisão correta, é necessário comparar o comportamento de cada scheduler sob diferentes cargas de trabalho. Abaixo, apresentamos uma análise direta das características técnicas de cada um.

Scheduler	Foco Principal	Ideal Para	Desvantagens em RAID
BQF	Justiça entre processos	Desktops, VMs interativas leves	Alta sobrecarga de CPU; latência inconsistente em I/O pesado.
MQ-DEADLINE	Evitar starvation (inanição)	Bancos de dados, cargas mistas	Pode adicionar latência desnecessária em leituras puras sequenciais.
None	Throughput máximo	NVMe, SSDs Enterprise, RAID 10	Requer hardware de qualidade; pode sofrer com starvation se o driver não for robusto.

A escolha depende diretamente do tipo de RAID que você utiliza. Em configurações RAID 1 ou RAID 5, a sobrecarga de cálculo de paridade pode se beneficiar de um scheduler que priorize a previsibilidade. Já em RAID 10, onde o foco é espelhamento e interleave para máxima velocidade, o throughput é rei.

O impacto do RAID na fila de I/O

Muitos administradores cometem o erro de configurar o scheduler no nível do sistema operacional sem considerar a camada de abstração do software RAID (mdadm) ou hardware RAID.

No caso de RAID de software no Linux, os dispositivos virtuais (como /dev/md0) são tratados pelo kernel. Se você configurar o scheduler para None no dispositivo físico (ex: /dev/nvme0n1), o mdadm ainda precisa gerenciar a distribuição das I/Os entre os discos membros. Isso pode criar um gargalo se o driver do mdadm não for otimizado para multi-queue.

Já em RAID de hardware, com controladoras dedicadas e cache próprio, o jogo muda completamente. A controladora de RAID faz seu próprio agendamento interno. Nesse cenário, configurar o Linux com None ou MQ-DEADLINE é crucial para evitar que o kernel tente "ajudar" onde a controladora já está otimizada, evitando duplicidade de trabalho e perda de performance.

Outro ponto crítico é a latência aleatória (IOPS). Em bancos de dados SQL ou NoSQL rodando sobre VMs em um host Proxmox, a aleatoriedade é alta. O scheduler MQ-DEADLINE tende a oferecer uma experiência mais consistente aqui, garantindo que escritas críticas não fiquem presas atrás de leituras grandes de backup.

Como aplicar as mudanças no Proxmox e Linux

A configuração do scheduler pode ser feita temporariamente via terminal ou permanentemente via arquivos de configuração. No Proxmox VE, que é baseado em Debian, a gestão desses parâmetros segue o padrão Linux.

Verificar o scheduler atual: Execute o comando abaixo para ver qual algoritmo está ativo no seu disco. Substitua sda pelo seu dispositivo (ex: nvme0n1).

cat /sys/block/sda/queue/scheduler

O resultado mostrará o scheduler atual entre colchetes, como [mq-deadline] none bfq.

Alterar temporariamente: Para testar uma configuração sem reiniciar, use o comando echo com privilégios de root. Isso será perdido ao reiniciar o servidor.

echo none > /sys/block/sda/queue/scheduler

Aplicar permanentemente: Para tornar a mudança persistente após reboot, você deve criar ou editar um arquivo de configuração udev. Crie um arquivo em /etc/udev/rules.d/99-io-scheduler.rules.

Dentro do arquivo, adicione regras para cada dispositivo. Por exemplo:

ACTION=="add|change", KERNEL=="nvme0n1", ATTR{queue/scheduler}="none"
ACTION=="add|change", KERNEL=="sda", ATTR{queue/scheduler}="mq-deadline"

Após salvar, execute udevadm control --reload-rules e recarregue os dispositivos com udevadm trigger. No Proxmox, é recomendável testar a nova configuração por 24 a 48 horas antes de assumir que ela melhorou a performance geral do cluster.

Perguntas frequentes

Devo usar o scheduler None para todos os meus discos?

Não necessariamente. O scheduler None é altamente recomendado para dispositivos NVMe e SSDs modernos de alta performance, pois transfere a responsabilidade do agendamento para o controlador do dispositivo. No entanto, se você ainda possui discos SATA antigos ou HDDs mecânicos em um pool misto, o MQ-DEADLINE ou BFQ podem ser mais adequados para otimizar a busca física. O ideal é avaliar cada dispositivo individualmente.

O I/O scheduler afeta a performance do ZFS?

Sim, mas o ZFS tem seu próprio gerenciamento de pool e filas internas. Historicamente, o ZFS funcionava melhor com o scheduler None ou Noop, pois o próprio ZFS tenta gerenciar a ordenação das I/Os para otimizar a escrita no disco. Configurar o kernel para fazer reordenação antes do ZFS pode causar redundância de processamento. Verifique sempre as recomendações da documentação oficial do ZFS para a versão do seu sistema.

Como saber se meu scheduler está causando gargalo?

Você pode utilizar ferramentas como iostat, dstat ou pidstat. Observe o campo %util e, mais importante, a latência média de leitura/escrita. Se o %util estiver alto (próximo de 100%) mas a latência estiver disparada, pode haver contenção na fila do scheduler. Ferramentas como blktrace permitem visualizar o fluxo exato das requisições, ajudando a identificar starvation.

Posso usar schedulers diferentes para discos diferentes no mesmo servidor?

Sim, absolutamente. Em um ambiente Proxmox, é comum ter um SSD NVMe para as VMs de alta performance e HDDs maiores para backups ou armazenamento frio. Você pode configurar o NVMe com None para máxima velocidade e os HDDs com MQ-DEADLINE para garantir que escritas de backup não travem o sistema. A configuração via udev permite granularidade total por dispositivo.

O scheduler interfere na estabilidade do RAID?

Um scheduler mal configurado não deve quebrar o RAID, mas pode causar inconsistências de performance ou latência extrema em operações de rebuild. Se você estiver reconstruindo um disco falhado em um RAID 5 ou 6, um scheduler muito agressivo pode consumir toda a banda de I/O disponível, impedindo que as VMs rodem normalmente. O MQ-DEADLINE é frequentemente citado como um bom equilíbrio entre performance e estabilidade durante rebuilds.

Conclusão

A otimização do I/O scheduler é um passo técnico simples, mas com impacto profundo na performance da sua infraestrutura. Ignorar essa camada significa deixar desempenho em cima da mesa, especialmente quando se investe em hardware de ponta como NVMe e SSDs corporativos.

A regra geral para ambientes modernos de virtualização e armazenamento de alta velocidade é migrar do BFQ ou MQ-DEADLINE para o None (ou No-op) em dispositivos puramente eletrônicos, enquanto mantém schedulers mais ponderados para HDDs ou cargas mistas complexas. Lembre-se de testar sempre em um ambiente de homologação antes de aplicar em produção.

Se você busca maximizar a eficiência do seu parque de servidores sem complicações desnecessárias, contar com uma infraestrutura bem ajustada é o primeiro passo. Na Toda Solução, entendemos que cada byte de latência economizada se traduz em melhor experiência para seus clientes e maior estabilidade para suas aplicações. Avalie suas configurações atuais e ajuste o timbre da sua infraestrutura para a performance que ela realmente merece.