Controllo filesystem per un server con ESXi
Indice
Introduzione
Eseguito con Puppy linux o con una live Unix
Identificare il disco
Prima individua quali dischi vede il sistema:
lsblk
oppure
fdisk -l
Controllo SMART
Il modo più comune è con smartmontools (smartctl).
smartctl -a /dev/sda
Ti mostra:
- ore di attività,
- errori registrati,
- temperature,
- stato dei settori.
Per un check rapido:
smartctl -H /dev/sda
Ti dirà solo se è PASSED o se ci sono problemi.
Installare smartmontools (se puoi)
Con Puppy spesso si può installare pacchetti anche in live:
ppm # Puppy Package Manager
e cerca smartmontools.
Vuoi che ti preparo una procedura pratica “senza smartctl” usando solo hdparm e badblocks
Spesso Puppy ha hdparm e badblocks
hdparm
Puoi ottenere info di base sul disco:
hdparm -I /dev/sda
Mostra:
- modello del disco,
- supporto SMART (ti dice se è abilitato),
- altre capacità.
Se vedi "SMART support is: Enabled", allora il disco supporta SMART, anche se non hai lo strumento per leggerlo.
badblocks
Puoi fare uno scan dei settori danneggiati (attenzione: può essere lungo):
badblocks -sv /dev/sda
(usa il disco giusto, senza partizione numerica, es. /dev/sda non /dev/sda1).
Questo NON danneggia i dati se usi solo -sv (lettura), ma è molto lento.
Controllo filesystem
Se vuoi verificare l’integrità della partizione (non l’hardware, ma la struttura dei dati):
fsck -f /dev/sda1
Attenzione: Fallo solo a partizione smontata (altrimenti rischi danni).
Non rilevato nulla
Se prima di non avviarsi più ESXi dava errori nel copiare file, allora la situazione cambia.
Errori durante la copia sono tipici di problemi hardware, cioè:
- blocchi di memoria NAND (su SSD) che iniziano a deteriorarsi,
- settori che diventano lenti o difficili da leggere,
- errori sul controller/cavo.
Ma perché SMART sembra ok?
Molti SSD/HDD non segnalano immediatamente i problemi:
- SMART può restare “PASSED” anche con errori reali, finché non ci sono settori ufficialmente riallocati.
- Alcuni parametri (tipo Reallocate_NAND_Blk_Cnt o Offline_Uncorrectable) restano a 0 anche quando il disco ha già rallentamenti o blocchi temporanei.
- È possibile che il controller dell’SSD stia “nascondendo” problemi interni finché non peggiorano.
Verifica i log SMART più profondi
Avvia un test esteso:
smartctl -t long /dev/sda
(ci vorrà tempo). Per avere lo stato di avanzamento:
smartctl -a /dev/sda
Poi leggi il risultato:
smartctl -l selftest /dev/sda
Test di lettura a basso livello
Per scovare settori lenti/difettosi:
badblocks -sv /dev/sda
molto lento, ma rivela se ci sono aree danneggiate