PDA

View Full Version : Raid 1 degradato per la quarta volta: HDD difettosi o problema al controller?


capitan_crasy
07-10-2017, 13:27
Ciao a tutti...
Apro questo thread perchè non so più cosa fare.
In questi ultimi 10/15 anni ho sempre avuto dischi configurati in RAID 1 per il backup personale e in tutto questo tempo ho avuto solo un problema con un vecchio Nforce4 (legato ad un aggiornamento driver)...
Oggi invece sono alla quarta volta che si degrada il RAID1, composto da 2 dischi Toshiba da 3TB acquistati nel febbraio 2017.
Da prima come tutte le mie configurazioni ho utilizzato il controller della mia attuale scheda mamma in questo caso composto da un AMD FCH X370, che in pratica è un ex logica primise e che non ho mai avuto nessun problema con i chipset AMD antecedenti (nello specifico SB600, SB710, SB750, SB950).
Con X370 ho avuto quello più grave ovvero la cancellazione su due dischi delle partizioni, recuperate grazie ad un programma specifico (anche se gli ultimi files salvati erano corrotti).
Su consiglio di un mio fornitore ho preso un controller esterno PCI-EX con il chipset Marvell 88SE9230, ma anche in questo caso ogni mesetto circa il RAID 1 mi si degrada rendendo inaccessibile un HDD senza un apparente motivo!:muro:
Premetto che ho controllato i settori dei due Toshiba ogni santa volta dopo l'errore nel RAID 1 e sempre non hanno dato errori.
Stanco da questa situazione sto per acquistare un TerraMaster D2-310 (non NAS), ma a questo punto mi viene un dubbio che il problema sia di un HDD pur non dandomi errori evidenti, piuttosto che del controller (in questo caso però il problema potrebbe essere della scheda mamma)
Chiedo cortesemente un consiglio e aiuto per non spendere soldi inutili e cercare di risolvere un problema che non riesco a capire...
:)

Toshiba HDD inaccessibile
https://i.imgur.com/evxPlG0.jpg

Toshiba HDD visibile
https://i.imgur.com/fXdyXzs.jpg

maurilio968
07-10-2017, 14:06
...
Oggi invece sono alla quarta volta che si degrada il RAID1, composto da 2 dischi Toshiba da 3TB acquistati nel febbraio 2018.
...


quale modello Toshiba da 3 TB ?

capitan_crasy
07-10-2017, 14:50
quale modello Toshiba da 3 TB ?

http://i.imgur.com/cvhkYCKh.jpg (https://imgur.com/cvhkYCK)
http://i.imgur.com/U2IsvGQh.jpg (https://imgur.com/U2IsvGQ)

Errata corrige:
I dischi gli ho acquistati nel febbraio del 2017 e non nel 2018 ma sono stati fermi un più di un anno in attesa del nuovo sistema...

maurilio968
07-10-2017, 21:16
Errata corrige:
I dischi gli ho acquistati nel febbraio del 2017 e non nel 2018 ma sono stati fermi un più di un anno in attesa del nuovo sistema...

se li hai presi a febbraio 2017 come mai dici che sono stati fermi più di un anno ?
Ora siamo ad ottobre 2017. Anche perchè dici poi che ogni mesetto circa il raid di questi dischi si degrada.

Quindi scusa ma per cercare di capire cosa sta succedendono mettiamo qualche punto fermo:

1- da quanto tempo usi quei due dischi nel raid?
guardando i dati nella tua immagine leggo 2407 ore: fa 100 giorni se è stato acceso 24h al giorno 7su7.
2- Con X370 hai avuto la cancellazione su due dischi delle partizioni e basta oppure
altre volte ti si è corrotto il raid ?
3- quando hai preso il controller esterno PCI-EX con il chipset Marvell 88SE9230 hai avuto da subito gli stessi problemi di degradazione del raid ?

capitan_crasy
07-10-2017, 22:18
Per prima cosa ti ringrazio per la tua risposta...:)

se li hai presi a febbraio 2017 come mai dici che sono stati fermi più di un anno ?

Ci credi che pensavo di essere nel ottobre 2018?
Lascia stare, questo problema mi manda ai pazzi...:doh:


Ora siamo ad ottobre 2017. Anche perchè dici poi che ogni mesetto circa il raid di questi dischi si degrada.

Negli ultimi 3 mesi (giorno più, giorno meno) il bios del controller mi avvisa che il RAID è degradato...




1- da quanto tempo usi quei due dischi nel raid?

Da quando ho il nuovo sistema, metà aprile di quest'anno; prima avevo un altra configurazione RAID 1 sempre con degli HDD Toshiba da 2TB (DT01ACA200) e problemi zero (è anche per quello che ho scelto ancora Toshiba e proprio quella serie)...


2- Con X370 hai avuto la cancellazione su due dischi delle partizioni e basta oppure
altre volte ti si è corrotto il raid ?

Premetto che avevo collegato alle porte SATA del controller AMD, oltre i due Toshiba 3TB, anche due SSD da 250GB e 750BG.
Da un riavvio all'altro mi aveva accoppiato SSD da 750GB con uno dei Toshiba facendo una copia della partizione del SSD (dandomi comunque il messaggio di errore della configurazione RAID), mentre l'altro HDD era un fantasma senza una partizione (è dal quel hard disk che sono riuscito a recuperare la maggior parte dei dati con un programma specifico)...


3- quando hai preso il controller esterno PCI-EX con il chipset Marvell 88SE9230 hai avuto da subito gli stessi problemi di degradazione del raid ?

No il problema è diverso.
Un HDD rimane disponibile con la partizione, mentre l'altro HDD veniva visto come unità a se e con la partizione nascosta.
Se collego tale HDD ad un altro PC la partizione è regolarmente visibile naturalmente i dati del mirroring erano fermi dal giorno della segnalazione del degrado.


Comunque intanto comincio con il dire che è possibile che un raid si degradi anche senza che nè il controller nè i dischi funzionino fuori specifica.

Anzi proprio per questo io non userei dischi con un URE (unrecoverable read error) di 10^14 nei raid (come i tuoi Toshiba) proprio perchè anche un solo URE ti manda a ramengo qualunque raid a meno che il controller non sia di classe enterprise con sistemi di Data Integrity Checking oppure il raid non sia su filesystem ZFS (come per esempio su FreeNas).

Quei dischi sono di classe consumer, quindi anche se il disco funziona perfettamente la probabilità di avere un URE ogni 3TB di letture è di quasi il 25%.

Però io ho avuto altri dischi Toshiba da 2TB della stessa serie e in più di 2 anni di RAID1 non ho mai avuto un problema e i controller erano sempre quelli AMD...


Qui puoi vedere un grafico in merito:

https://docs.google.com/spreadsheets/d/1WRPiiMN1apOK2sSj81vKfiFtu3VUWo75g-vE_k8TfeI/pubchart?oid=1521608995&format=interactive

Qui l'articolo con l'analisi approfondita

https://standalone-sysadmin.com/recalculating-odds-of-raid5-ure-failure-b06d9b01ddb3

Sugli URE e altro vedi questra discussione: http://www.hwupgrade.it/forum/showpost.php?p=45074306&postcount=53

Se usassi un disco di classe enterprise avresti una probabilità 10 volte inferiore,cioè 2.5%.

altro esempio esempio che vedi subito nel grafico: un raid 5 con 3 dischi da 3 TB ha il 50% di probabilità che si verifichi almeno 1 URE se leggi tutti e 9 i TB, usando dischi consumer.
Ovviamente tale pericolo scende al 5% usando dischi enterpise (cioè con URE< di 10^15).

Ora se uno usa un disco singolo,e durante una copia dei dati verso un secondo disco, salta 1 singolo bit su 3Tb di letture se ne accorge solo se in futuro andrà a leggere dal disco
destinazione proprio il file che contiene quell'errore. Più generalmente sarà invece convinto di aver copiato tutto senza errori.
Nel tuo raid 1 invece la copia di ogni singolo bit di un disco deve essere esatta. Ecco che se si verifica 1 URE il raid ti salta. Ma almeno dall'altro disco ricostruisci i dati.
Certo hai la rottura di dover ricostruire il raid.
Ma pensa se fai invece un raid 4 e l'ure si verifica nel disco di parità: ti sei fottuto tutto il raid.

Questo non significa che magari nel tuo caso il problema sia un altro.
Ti ho solo dato una spiegazione di come sia possibile rilevare errori in dischi perfettamente funzionanti.

Per capire il tuo caso bisognerebbe per esempio sapere quanto spazio libero hai sui dischi e quanto intenso è l'uso che ne fai
per dedurre la mole di dati letti in quel mese in cui dici che il raid si corrompe.
E alla fine può darsi benissimo che uno di quei due Toshiba sia malfunzionante nel senso che abbia la tendenza a produrre degli URE molto più spesso delle specifiche.
Questo, a quanto di mia conoscenza fino ad ora, nessuno smart può segnalartelo.

Comunque la prossima volta che compri dischi per dati importanti o per farci dei raid assicurati di prendere quelli che nelle specifiche hanno URE <1*10^15 come per esempio,per restare sempre ai Toshiba da 3TB, i dischi MG04ACA300E.

In sostanza: con le capacità di oggi,con dischi singoli ormai a 12TB oppure raid da 20 e più Tb, i dischi consumer vanno usati solo se i dati non sono importanti.

Puoi leggere cose simili anche nei commenti qui
https://www.tomshw.it/hard-disk-12-terabyte-seagate-porta-elio-pc-nas-88769

per dire che ormai il problema comincia a presentarsi.

Sono completamente spaesato dalla tua (ottima) spiegazione; devo rileggerlo per bene e farmi un'aggiornata sul mondo RAID...:stordita:
Comunque attualmente per motivi pratici ho rifatto il RAID1 da capo ma stavolta ho formattato i dischi a 2TB (effettivamente questi 3TB sono un po esagerati per le mie esigenze), però devo capire come risolvere il problema dato che non posso ogni volta spostare TB di dati...

maurilio968
07-10-2017, 22:57
Per prima cosa ti ringrazio per la tua risposta...:)



Ci credi che pensavo di essere nel ottobre 2018?
Lascia stare, questo problema mi manda ai pazzi...:doh:



Negli ultimi 3 mesi (giorno più, giorno meno) il bios del controller mi avvisa che il RAID è degradato...





Da quando ho il nuovo sistema, metà aprile di quest'anno; prima avevo un altra configurazione RAID 1 sempre con degli HDD Toshiba da 2TB (DT01ACA200) e problemi zero (è anche per quello che ho scelto ancora Toshiba e proprio quella serie)...



Premetto che avevo collegato alle porte SATA del controller AMD, oltre i due Toshiba 3TB, anche due SSD da 250GB e 750BG.
Da un riavvio all'altro mi aveva accoppiato SSD da 750GB con uno dei Toshiba facendo una copia della partizione del SSD (dandomi comunque il messaggio di errore della configurazione RAID), mentre l'altro HDD era un fantasma senza una partizione (è dal quel hard disk che sono riuscito a recuperare la maggior parte dei dati con un programma specifico)...



No il problema è diverso.
Un HDD rimane disponibile con la partizione, mentre l'altro HDD veniva visto come unità a se e con la partizione nascosta.
Se collego tale HDD ad un altro PC la partizione è regolarmente visibile naturalmente i dati del mirroring erano fermi dal giorno della segnalazione del degrado.



Però io ho avuto altri dischi Toshiba da 2TB della stessa serie e in più di 2 anni di RAID1 non ho mai avuto un problema e i controller erano sempre quelli AMD...



Sono completamente spaesato dalla tua (ottima) spiegazione; devo rileggerlo per bene e farmi un'aggiornata sul mondo RAID...:stordita:
Comunque attualmente per motivi pratici ho rifatto il RAID1 da capo ma stavolta ho formattato i dischi a 2TB (effettivamente questi 3TB sono un po esagerati per le mie esigenze), però devo capire come risolvere il problema dato che non posso ogni volta spostare TB di dati...

Mi hai quotato mentre editavo per poterti rispondere meglio e non confonderti subito con troppe informazioni.

Allora penso che gli URE, come avevo scritto prima, possano essere una spiegazione. Ma il punto è sapere come i Toshiba impostano lo smart per tenerne conto,

Sto conducendo uno studio approfondito dello smart di WD e Seagate, vedi appunto
la discussione che citavo. Su Toshiba non ho dati. Quindi non so come lo smart dei toshiba viene influenzato dagli ure,

Sui raid e su quanto detto leggi anche qui

http://www.techrepublic.com/blog/the-enterprise-cloud/how-to-protect-yourself-from-raid-related-unrecoverable-read-errors-ures/