Controllo filesystem per un server con ESXi

Versione del 2 set 2025 alle 15:15 di Andrea (discussione | contributi) (Creata pagina con "← HDD / SSD / SSD M.2 Category:ESXi Category:HDD == Introduzione == Eseguito con Puppy linux o con una live Unix == Identificar...")
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)

← HDD / SSD / SSD M.2

Introduzione

Eseguito con Puppy linux o con una live Unix

Identificare il disco

Prima individua quali dischi vede il sistema:

lsblk

oppure

fdisk -l

Controllo SMART

Il modo più comune è con smartmontools (smartctl).

smartctl -a /dev/sda

Ti mostra:

  • ore di attività,
  • errori registrati,
  • temperature,
  • stato dei settori.

Per un check rapido:

smartctl -H /dev/sda

Ti dirà solo se è PASSED o se ci sono problemi.

Installare smartmontools (se puoi)

Con Puppy spesso si può installare pacchetti anche in live:

ppm  # Puppy Package Manager

e cerca smartmontools.

Vuoi che ti preparo una procedura pratica “senza smartctl” usando solo hdparm e badblocks

Spesso Puppy ha hdparm e badblocks

hdparm

Puoi ottenere info di base sul disco:

hdparm -I /dev/sda

Mostra:

  • modello del disco,
  • supporto SMART (ti dice se è abilitato),
  • altre capacità.

Se vedi "SMART support is: Enabled", allora il disco supporta SMART, anche se non hai lo strumento per leggerlo.

badblocks

Puoi fare uno scan dei settori danneggiati (attenzione: può essere lungo):

badblocks -sv /dev/sda

(usa il disco giusto, senza partizione numerica, es. /dev/sda non /dev/sda1).

Questo NON danneggia i dati se usi solo -sv (lettura), ma è molto lento.

Controllo filesystem

Se vuoi verificare l’integrità della partizione (non l’hardware, ma la struttura dei dati):

fsck -f /dev/sda1

Attenzione: Fallo solo a partizione smontata (altrimenti rischi danni).

Non rilevato nulla

Se prima di non avviarsi più ESXi dava errori nel copiare file, allora la situazione cambia.

Errori durante la copia sono tipici di problemi hardware, cioè:

  • blocchi di memoria NAND (su SSD) che iniziano a deteriorarsi,
  • settori che diventano lenti o difficili da leggere,
  • errori sul controller/cavo.

Ma perché SMART sembra ok?

Molti SSD/HDD non segnalano immediatamente i problemi:

  • SMART può restare “PASSED” anche con errori reali, finché non ci sono settori ufficialmente riallocati.
  • Alcuni parametri (tipo Reallocate_NAND_Blk_Cnt o Offline_Uncorrectable) restano a 0 anche quando il disco ha già rallentamenti o blocchi temporanei.
  • È possibile che il controller dell’SSD stia “nascondendo” problemi interni finché non peggiorano.

Verifica i log SMART più profondi

Avvia un test esteso:

smartctl -t long /dev/sda

(ci vorrà tempo). Per avere lo stato di avanzamento:

smartctl -a /dev/sda 

Poi leggi il risultato:

smartctl -l selftest /dev/sda

Test di lettura a basso livello

Per scovare settori lenti/difettosi:

badblocks -sv /dev/sda

molto lento, ma rivela se ci sono aree danneggiate