View Full Version : Raid 5 con 4 dischi corrotto
xpeppe86x
17-12-2012, 15:29
Ciao a tutti,
come scritto in oggetto, ho un broblema con un raid 5 creato in ubuntu server, si è guastato un disco e il sistema non torna più up.
Sembra che il disco guasto avesse caricato sopra il boot loader e ora il sistema dà sempre errore
mount: mounting /dev on /root/dev failed: no such file or directory
Target: filesystem doesn't have /sbin/init
Qualche consiglio???
Grazieee
Tasslehoff
17-12-2012, 22:36
Consiglio di partire da distribuzione live, possibilmente la stessa versione del sistema operativo che hai utilizzato (giusto per evitare di usare versioni di kernel troppo diverse che potrebbero appioppare nomi diversi ai device).
Se è tutto in ordine la distribuzione live dovrebbe rilevare il medesimo array raid (verifica i device /dev/md*), verificane lo stato facendo il cat di /proc/mdstat e usando mdadm.
Una volta identificato il device corretto su cui sta la root del sistema originale montalo nel percorso che preferisci, magari in sola lettura, e poi procedi a backuppare tutto, male non fa...
A questo punto smonta e rimonta in lettura e scrittura (supponiamo in /mnt/raid), monta /proc /dev e /sys con l'opzione --bind (es mount --bind /dev /mnt/raid/dev, mount --bind /proc /mnt/raid/proc, mount --bind /sys /mnt/raid/sys), una volta fatto lancia chroot del percorso dove hai montato l'array (es chroot /mnt/raid).
Una volta fatto chroot reinstalla grub, e questa volta non soltanto sul mbr del primo disco ma su tutti i dischi che compongono l'array.
Nel dubbio puoi trovare utili informazioni nelle varie guide al disaster recovery di linux che trovi in rete.
Tieni sempre sotto mano questo howto (http://unthought.net/Software-RAID.HOWTO/Software-RAID.HOWTO-5.html) sul raid software.
Ultimo consiglio, morte al raid5 :O
BAARF - Enough is enough. (http://www.miracleas.com/BAARF/BAARF2.html)
Alfonso78
18-12-2012, 18:10
Curiosità: dici di smontare e rimontare i dischi su un pc con un cd live della distro interessata?
Tasslehoff
18-12-2012, 20:57
Curiosità: dici di smontare e rimontare i dischi su un pc con un cd live della distro interessata?Io consiglierei di farlo sulla stessa macchina se possibile in modo da introdurre il minor numero possibile di modifiche e rendere più indolore il restore.
Comunque è una cosa fattibilissima anche su un'altra macchina, o in virtual machine.
Chiaramente in questo caso servirebbe copiare tutto il contenuto dell'array su un disco virtuale della vm ma è un ottimo modo per testare il disaster recovery.
Alfonso78
19-12-2012, 10:01
Io consiglierei di farlo sulla stessa macchina se possibile in modo da introdurre il minor numero possibile di modifiche e rendere più indolore il restore.
Ottimo. Questa soluzione la vedo anche io più razionale.
Ultimo consiglio, morte al raid5 :O
Tempo fa saltò un NAS con RAID5 ad un amico. Fu costretto ad inviare gli HD in un centro recupero dati e ad accendersi un mutuo bancario per pagarsi il backup... :D
Tasslehoff
19-12-2012, 11:03
Tempo fa saltò un NAS con RAID5 ad un amico. Fu costretto ad inviare gli HD in un centro recupero dati e ad accendersi un mutuo bancario per pagarsi il backup... :DAhi brutta cosa :(
La mia peggiore esperienza con un array raid5 è stata su un HP Proliant, disco in fail, macchina riavviata e disco che magicamente torna online...
Mi sono insospettito e così senza pensarci due volte e senza chiedere autorizzazioni ho staccato tutto e fatto un ghost a freddo.
C'è stata un po' di maretta col cliente perchè si trattava di un server di produzione (senza hot spare, non clusterizzato e con un backup piuttosto stringato) e il down ha causato qualche disguido (niente di catastrofico o irreparabile, solo problemi organizzativi da parte dei soliti papaveri nullafacenti che passano le giornate a fare riunioni su riunioni... :rolleyes: ), poi si è scoperto dopo qualche update di firmware che il controller RAID aveva cominciato a dare i numeri, un secondo disco è passato in stato fail e si è persa l'unità logica con TUTTO.
A quel punto il ghost è risultato a dir poco vitale, sostituito controller e dischi, aggiornati tutti i firmware e ripristinato il ghost tutto ha ripreso a funzionare correttamente, inutile dire che a quel punto sono arrivate le scuse e i ringraziamenti per aver salvato la macchina :D
Comunque non è niente rispetto alle catastrofi causate dai problemi su SAN quando magari due lun vengono montate in rw contemporaneamente su due o più macchine.
In quei casi vedi i filesystem fare i fuori d'artificio :asd:
Alfonso78
19-12-2012, 11:31
Azz...
Nel caso del mio amico, non è stato fatto nessun tentativo di recupero per paura di danneggiare i file... Si trattava di un intero database (parecchio importante) di un gestionale aziendale.
Certo mettere dati così importanti in una NAS Buffalo Tecnology R5 è da fucilazione con spalle al muro...
Forse smontare gli HD e montarli sotto linux poteva salvargli almeno il portafoglio ma ha preferito non rischiare e mandare tutto in clinica.
Tasslehoff
19-12-2012, 11:40
Azz...
Nel caso del mio amico, non è stato fatto nessun tentativo di recupero per paura di danneggiare i file... Si trattava di un intero database (parecchio importante) di un gestionale aziendale.
Certo mettere dati così importanti in una NAS Buffalo Tecnology R5 è da fucilazione con spalle al muro...
Forse smontare gli HD e montarli sotto linux poteva salvargli almeno il portafoglio ma ha preferito non rischiare e mandare tutto in clinica.Nel caso poteva fare qualche prova montando i dischi in read-only e creando delle immagini con dd.
A quel punto poteva fare tutti gli esperimenti possibili sulle immagini, magari lasciandone una copia da qualche parte al sicuro.
Alfonso78
19-12-2012, 16:34
Nel caso poteva fare qualche prova montando i dischi in read-only e creando delle immagini con dd.
A quel punto poteva fare tutti gli esperimenti possibili sulle immagini, magari lasciandone una copia da qualche parte al sicuro.
Era talmente impaurito che non ha voluto rischiare di far perdere dati al suo cliente...
Anche il solo collegarli in altra sede era un'idea da scartare.
Ottima idea quella delle immagini con DD, ma collegarli in read-only come si poteva fare?
Tasslehoff
19-12-2012, 17:22
Era talmente impaurito che non ha voluto rischiare di far perdere dati al suo cliente...
Anche il solo collegarli in altra sede era un'idea da scartare.
Ottima idea quella delle immagini con DD, ma collegarli in read-only come si poteva fare?"mount -t filesystem -r /dev/device /mnt/percorso", oppure "mount -t filesystem /dev/device /mnt/percorso -o ro"
Alfonso78
20-12-2012, 07:45
;)
chinookAT85LSAURO
21-12-2012, 10:56
Ahi brutta cosa :(
La mia peggiore esperienza con un array raid5 è stata su un HP Proliant, disco in fail, macchina riavviata e disco che magicamente torna online...
Mi sono insospettito e così senza pensarci due volte e senza chiedere autorizzazioni ho staccato tutto e fatto un ghost a freddo.
C'è stata un po' di maretta col cliente perchè si trattava di un server di produzione (senza hot spare, non clusterizzato e con un backup piuttosto stringato) e il down ha causato qualche disguido (niente di catastrofico o irreparabile, solo problemi organizzativi da parte dei soliti papaveri nullafacenti che passano le giornate a fare riunioni su riunioni... :rolleyes: ), poi si è scoperto dopo qualche update di firmware che il controller RAID aveva cominciato a dare i numeri, un secondo disco è passato in stato fail e si è persa l'unità logica con TUTTO.
A quel punto il ghost è risultato a dir poco vitale, sostituito controller e dischi, aggiornati tutti i firmware e ripristinato il ghost tutto ha ripreso a funzionare correttamente, inutile dire che a quel punto sono arrivate le scuse e i ringraziamenti per aver salvato la macchina :D
Comunque non è niente rispetto alle catastrofi causate dai problemi su SAN quando magari due lun vengono montate in rw contemporaneamente su due o più macchine.
In quei casi vedi i filesystem fare i fuori d'artificio :asd:
Ma il primo disco era rotto o no?
Anche a me il controller hp se va in fault e riavvio mi dice ok, salvo qualche giorno o ora andare in fault o warning "che potrebbe rompersi"...
Tasslehoff
21-12-2012, 14:01
Ma il primo disco era rotto o no?
Anche a me il controller hp se va in fault e riavvio mi dice ok, salvo qualche giorno o ora andare in fault o warning "che potrebbe rompersi"...Che fosse effettivamente rotto o no è trascurabile, una volta che un disco è in fault o in "predictable failure" si cambia senza se e senza ma.
Del resto se il controller lo rileva come tale è impensabile pensare di attaccare il disco su un'altra macchina o un altro controller per vedere se lo vede come tale, trattandosi poi di array raid5 non è nemmeno pensabile collegare il singolo disco e montare il filesystem.
Questo è il motivo per il quale preferisco girare alla larga da macchine Intel based HP, un comportamento del genere è inaccettabile, e non esiste che il supporto mi dica "non deve riavviarla", non esiste proprio.
Se una macchina Dell o IBM ha un disco in fail o in predictable failure l'unità rimane in quello stato a prescindere dai riavvii, ed è giusto e sacrosanto che sia così, i dischi non "rinascono" con un riavvio :rolleyes:
chinookAT85LSAURO
21-12-2012, 14:50
Che fosse effettivamente rotto o no è trascurabile, una volta che un disco è in fault o in "predictable failure" si cambia senza se e senza ma.
Del resto se il controller lo rileva come tale è impensabile pensare di attaccare il disco su un'altra macchina o un altro controller per vedere se lo vede come tale, trattandosi poi di array raid5 non è nemmeno pensabile collegare il singolo disco e montare il filesystem.
Questo è il motivo per il quale preferisco girare alla larga da macchine Intel based HP, un comportamento del genere è inaccettabile, e non esiste che il supporto mi dica "non deve riavviarla", non esiste proprio.
Se una macchina Dell o IBM ha un disco in fail o in predictable failure l'unità rimane in quello stato a prescindere dai riavvii, ed è giusto e sacrosanto che sia così, i dischi non "rinascono" con un riavvio :rolleyes:
Certo infatti anche io ho provveduto a cambiarlo subito...
infatti anche io sono rimasto di sasso che il controller non segnali niente dopo un riavvio ma dopo un x tempo mandi un messaggio...
intanto però il disco è stato riattaccato sempre alla stessa e nonostante da 6 mesi continui a dire che si romperà è comunque accessibile e viene usato per prove varie...
Alfonso78
21-12-2012, 17:29
Del resto se il controller lo rileva come tale è impensabile pensare di attaccare il disco su un'altra macchina o un altro controller per vedere se lo vede come tale,
E se invece i dischi venissero collegati su un'altra macchina? Cosa potrebbe succedere?
Sarebbe un tentativo molto invasivo?
Tasslehoff
24-12-2012, 18:14
E se invece i dischi venissero collegati su un'altra macchina? Cosa potrebbe succedere?
Sarebbe un tentativo molto invasivo?In linea di principio limitandoti a connettere i dischi ad un diverso controller non dovresti incorrere in grossi rischi, nel senso che non facendo modifiche alla configurazione dell'array tutto rimane nello stato in cui è.
Ovviamente questo non vale più se modifichi la configurazione :)
In linea di principio un po' tutti i controller dovrebbero conservare le informazioni per la ricostruzione dell'array nei primi settori delle unità, per cui la configurazione dell'array dovrebbe essere indipendente dai controller.
Questo però in teoria, in pratica non credo che esista uno standard a cui i produttori di controller debbano attenersi, quindi credo che pochi possano darti risposte certe a questa domanda.
Personalmente non mi è mai capitato, o meglio mi è capitato di sostituire controller RAID ma sempre con differenti esemplari dello stesso modello.
In rete c'è chi sostiene di non aver avuto problemi sostituendo il controller raid con un differente modello dello stesso produttore, invito però a prendere queste affermazioni "con le molle" dato che parlano di controller HP, e come è noto HP (esattamente come IBM o Dell) si limita ad assemblare i controller (se non a marchiarli...), i controller di fatto sono prodotti da altre società (LSI, Promise, Adaptec alias PMC, etc).
Se invece parliamo di array raid software non ci sono problemi, basta che il kernel abbia gli opportuni moduli per accedere al controller SAS o SATA e il gioco è fatto.
Alfonso78
02-01-2013, 15:23
Ok. Grazie delle info molto precise e sopratutto concrete.
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.