|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#1 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Controllare l'integrità di dischi SCSI su server HP Proliant
Oggi dovrei avere fra le mani un server Proliant DL380 G3 con un controller SCSI Smart Array 5i.
Mi servirebbe un metodo pratico per controllare l'integrità dei 7 dischi SCSI che sono stati presi per questo server (2 di riserva). I dischi sono originali HP (3 da 36 GB e 4 da 72 GB) ed andranno a formare un RAID 1 per il SO (2x36 GB) e un RAID 5 per i dati (3 x 72 GB). Grazie |
|
|
|
|
|
#2 |
|
Senior Member
Iscritto dal: Nov 2001
Città: Kendermore
Messaggi: 6678
|
Se hai già un os installato puoi usare l'Array Configuration Utility (ACU) o l'Array Diagnostic Utility (ADU) che dovresti poter scaricare direttamente dal sito HP tra il software disponibile per quella macchina.
Non sono il massimo (anzi francamente a me sembrano la peggiori utility del genere, Dell OpenManage o IBM ServeRAID Manager sono eoni avanti...) ma quantomeno ti possono verificare lo stato delle unità e fornire un report dettagliato sul controller, gli array, le unità logiche e le unità fisiche. Mi pare che ci sia anche una iso con una serie di tool diagnostici da far girare al boot, nel caso tu non abbia ancora installato l'OS. Riguardo alla topologia dello storage, i due dischi che avanzano li useresti come hot-spare? Perchè in questo caso io consiglierei di risparmiarne uno, e di usare un solo disco da 74GB come hot-spare condiviso. Nel caso si guastasse uno dei dischi da 36GB risulterebbe sprecato, ma quello che serve è che possa garantire la continuità operativa; poi con tutta calma potrai farti mandare un disco da 36GB, togliere l'hot-spare da 74GB e inserire il nuovo da 36GB e attendere l'avvio della rebuild e poi reinserire il 74GB hot-spare.
__________________
https://tasslehoff.burrfoot.it | Cloud? Enough is enough! | SPID… grazie ma no grazie "Arguing that you don't care about the right to privacy because you have nothing to hide is no different than saying you don't care about free speech because you have nothing to say." Ultima modifica di Tasslehoff : 05-08-2010 alle 01:33. |
|
|
|
|
|
#3 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Ancora il sistema operativo non c'è, così alla fine ho optato per il CD HP SmartStart.
Buona l'idea dell'hot spare condiviso. Grazie. Purtroppo proprio un disco da 73 GB è riportato come near to failure La cosa strana è che i counter degli errori di lettura sono a zero, l'hard disk passa tutti i test (compreso il self test esteso), mentre è diverso da zero lo status dello SMART. Ora mi sa che lo devo montare sul mio controller 19160 per poter leggere in modo più preciso tutti i contatori SMART. E davvero da buttare ? |
|
|
|
|
|
#4 | |
|
Senior Member
Iscritto dal: Dec 2007
Città: LIDV
Messaggi: 11612
|
Quote:
- Mi si rompe un disco da 36 - Parte l'hot spare da 72 - Rebuild completata, tolgo il disco da 36 guasto e ne inserisco uno nuovo da 36 - Tolgo il disco di hot-spare da 72 in modo da forzare una rebuild sul nuovo da 36 - Reinserisco il disco da 72 che cosi torna a essere hot spare.... Totale 2 rebuild.... tu saresti disposto a correre un rischio simile?
__________________
Si stava meglio quando si stava peggio |
|
|
|
|
|
|
#5 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Vero, un bel problema. Allora opterò per mettere solo l'hot spare solo per il Raid 5, anche se ora devo cercare un altro disco.
|
|
|
|
|
|
#6 | |
|
Junior Member
Iscritto dal: Dec 2006
Messaggi: 14
|
Quote:
Tanto se e per un uso standard che te ne fai di un hotspare, hai gia la ridondanza nel raid pro: piu spazio per l'OS 72 GB anziche 36 Piu spazio per i dati, 217 anziche 146 costo per GB inferiore perche sfrutti tutto il disponibile contro Il raid 5 sara un pelo piu lento del raid 5, ma sara solo l'avvio ha dimenticavo, il predictive failure che ti segnala il tool, non controlla solo i bad blocks, controlla anche svariati altri parametri tra i quali, il tempo di accesso, se si allunga, ti da un warning Ultima modifica di wifi : 19-08-2010 alle 13:02. |
|
|
|
|
|
|
#7 | |
|
Senior Member
Iscritto dal: Nov 2001
Città: Kendermore
Messaggi: 6678
|
Quote:
A me è capitata in passato visto che l'assistenza HP mi aveva procurato un disco da 10k rpm anzichè 15k rpm, piuttosto che rimanere con l'array degradato e con il rischio di disastro ho preferito subire una rebuild in più. Alla fine il problema non è la rebuild, il problema è rimanere scoperti di parità. Tutto sommato poi non stiamo parlando di TB e TB, si tratta al massimo di qualche centinaio di GB, la rebuild dovrebbe richiedere più o meno mezz'ora. Previo ghost (magari a caldo tramite drive snapshot se si tratta di macchina Windows) imho è una cosa fattibilissima.
__________________
https://tasslehoff.burrfoot.it | Cloud? Enough is enough! | SPID… grazie ma no grazie "Arguing that you don't care about the right to privacy because you have nothing to hide is no different than saying you don't care about free speech because you have nothing to say." |
|
|
|
|
|
|
#8 | ||
|
Senior Member
Iscritto dal: Nov 2001
Città: Kendermore
Messaggi: 6678
|
Quote:
Valuta tu in base alla necessità di storage che hai, però io preferirei avere un hot-spare, anche considerando che il software di monitoraggio HP fa abbastanza pena e non invia nemmeno una misera mail di notifica in caso di problemi allo storage Quote:
Io con i server HP ho visto comportamenti bizzarri simili più volte... cose che con Dell e IBM invece non capitano mai
__________________
https://tasslehoff.burrfoot.it | Cloud? Enough is enough! | SPID… grazie ma no grazie "Arguing that you don't care about the right to privacy because you have nothing to hide is no different than saying you don't care about free speech because you have nothing to say." |
||
|
|
|
|
|
#9 | |
|
Junior Member
Iscritto dal: Dec 2006
Messaggi: 14
|
Quote:
Non e perche uno ha avuto una brutta esperienza con un singolo prodotto che si deve sempre affossarlo. Per esempio, ci sono anche con hp tutti i tools per il monitoraggio del prodotto, incluse trap snmp, emails, insight agents con insight manager (gratis), remote access e control via la ILO, and anche la tirata di una campanellellina se lo vuoi Comunque tornando alla tua citazione, quante volte ti e successo che un disco si guasti subito dopo un altro? ( e intendo dopo, non contemporaneamente perche allora ripristini tutto facilmente) sara una su 10.000? a me in tanti anni di supporto su questi prodotti, non mi e mai successo, il piu delle volte si tratta di un disco che blocca la catena scsi, e per cio tutto sembra bloccato. ovviamente dipende se il server e usato in un ambiente mission critical, o simili, ma a questo punto non penso ci si possa rivolgersi ad un forum per una consulenza |
|
|
|
|
|
|
#10 | ||
|
Senior Member
Iscritto dal: Nov 2001
Città: Kendermore
Messaggi: 6678
|
Quote:
Ok Insight manager (anche IBM offre gratuitamente Director Express e Dell OpenManage) ma si tratta di un software che richiede una sua infrastruttura, una macchina su cui installarlo etc etc... Se uno ha pochi server HP e vuole qualcosa di indipendente e poco invasivo usa ACU o ADU, che nel migliore dei casi loggano nell'event log di Windows e non mandano uno straccio di email (cosa che invece OpenManage standalone fa, IBM ServeRaid Manager e Storage Manager standalone fanno). Poi per carità, uno può anche fare in modo di usare l'SMTP di IIS o Exchange (brrrrr...) per inviare ogni singolo record dell'event log via mail, ma francamente in oltre 10 anni di consulenze non ho ancora visto una persona che l'abbia fatto... passerebbe la giornata intera e spazzolarsi mail... Citi ILO, benissimo ma quanti hanno acquistato il server con quel componente opzionale? Anche i competitor hanno la loro controparte (IBM Remote Supervisor II), anche decisamente migliore (Dell DRAC5). Quote:
Dopo il riavvio per il ghost il disco è tornato magicamente online, poi dopo un altro riavvio è tornato offline insieme ad un altro... insomma dopo 3 gg di interventi alla fine abbiamo cambiato 4 dischi su 6 + controller, ovviamente con tutti gli update di firmware del caso. Alla fine di tutte queste sostituzioni ho ripristinato il ghost e non abbiamo perso un bit, però più che i guasti in se, quello che mi ha insospettito e mal disposto nei confronti di queste macchine (si trattava di un DL380 G5) è stato il comportamento randomico. Disco in fail --> reboot --> disco online... ma da quando? ma mai su nessuna macchina IBM ho visto fare questi numeri, se un disco è in fail, tale resta anche dopo 10.000 reboot ![]() Il bello è che il tecnico stesso uscito per le varie sostituzioni mi disse che era stata una cattiva idea rebootare per fare il ghost, che era normale che il disco che era in fail fosse tornato online con il reboot a causa dei contatori che si erano resettati con lo shutdown. Per carità, come giustamente facevi notare, dietro a un led di fail ci sono innumerevoli fattori, però non esiste che questi contatori (che certamente ci sono) si cancellino per un reboot e quindi rendano totalmente inaffidabile il monitoraggio.
__________________
https://tasslehoff.burrfoot.it | Cloud? Enough is enough! | SPID… grazie ma no grazie "Arguing that you don't care about the right to privacy because you have nothing to hide is no different than saying you don't care about free speech because you have nothing to say." Ultima modifica di Tasslehoff : 19-08-2010 alle 14:50. |
||
|
|
|
|
|
#11 | |
|
Junior Member
Iscritto dal: Dec 2006
Messaggi: 14
|
Quote:
Penso questo caso sia uno di quelli in cui un disco blocca tutto, percio non c'e piu communicazione tra controller e array, l'array segna tutto in fail, pero se ritiri il disco che ha bloccato tutto o se seguito ad un reboot quel disco sblocca la catena (attenzione, questo non significa che quel disco riparte, ma che sblocca la catena scsi. quel disco rimane failed) succede che l'array controller vede che i dischi che riappaiono sono tutti in status good (anche se lui prima nella sua memoria li avaiva in failded due to non accessible) e decide che tu poi ritornare a lavorare, magari senza parita, oppure aggiungendo l'hot spare. Direi che questa e una feature . Al tempo delle Netraid (vecchi array controllers) l'operazione e la scelta era lasciata tutta al tecnico (o al supporto remoto) percui ci perdevi le ore a capire come era configurato, e quali dischi forzare online per recuperate i dati, adello il fw dei nuovi controller lo fanno in automatico se possono. Meglio questo, aver di nuovo i dati, piutosto che avere tutto down e ripristinare da Tape. eh si, perche il ghost puo essere un workaround, ma in un enterprise level si usa il backup, magari su virtual library, magari con OBDR or Bare Metal Data Recovery devo anche dire che ACU e ADU sono configuration tool e diagnostic tool, non un monitoring tool af e poi le ILO sono integrate di default in tutti i server out of that, riconosco che i guasti ci sono, ma ci sono per tutte le company ciao |
|
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 00:46.



















