PDA

View Full Version : Problema RAID che continua a fare resync


LucaZPF
19-01-2016, 09:56
Ciao a tutti,
ho un problema su un server configurato in RAID 10. Sul server c'è installato Ubuntu 12.04.5 LTS che fa girare un'applicazione web gestionale PHP+MySQL e qualche cartella condivisa.
Gli utenti mi segnalano che ogni tanto (capita di sicuro almeno una volta a settimana) il server risulta non essere più raggiungibile via rete e, senza fare nulla, dopo 10/15 minuti ritorna ad essere raggiungibile. Ieri ero in azienda ed è capitato il problema e ho potuto vedere di persona cosa succede: il server non si riavvia, rimane accesso, solo che mouse e tastiera non rispondono, schermo nero ed effettivamente dopo 10 minuti si è come "sbloccato", il server web era tornato raggiungibile, le cartelle anche, solo che l'array risulta essere degradato e sta facendo il resync.

Mi era già capitato di collegarmi al server, lanciare cat /proc/mdstat e vedere il raid in ricostruzione, pensavo fosse saltata la corrente (no, non hanno l'UPS!), evidentemente non è così. Sinceramente non ho idea di cosa possa essere.

dmesg non mi dice molto:

[ 299.663434] mce: [Hardware Error]: Machine check events logged
[ 637.525464] perf samples too long (2512 > 2500), lowering kernel.perf_event_max_sample_rate to 50000


e questo se faccio mdadm --details /dev/md0

/dev/md0:
Version : 1.2
Creation Time : Fri Jan 2 16:39:36 2015
Raid Level : raid10
Array Size : 1953257472 (1862.77 GiB 2000.14 GB)
Used Dev Size : 976628736 (931.39 GiB 1000.07 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent

Update Time : Tue Jan 19 10:49:37 2016
State : active, resyncing
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Layout : near=2
Chunk Size : 512K

Resync Status : 27% complete


UUID : d5dfe575:da81339f:b7b2c359:a82dade9
Events : 4077

Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
1 8 33 1 active sync /dev/sdc1
4 8 17 2 active sync /dev/sdb1
3 8 49 3 active sync /dev/sdd1


ciao grazie

Kaya
19-01-2016, 11:12
Faccio un ipotesi un pelo azzardata: problemi di alimentatore del server. Potrebbero esserci dei cali di tensione dell'alimentatore che generano questi problemi.
Test di verifica: mettere un nuovo alimentatore (anche provvisoriamente) e verificare se il problema si ripresenta.

Consiglio: compra un ups al più presto, a prescindere dal guasto.

AMD_Edo
19-01-2016, 11:35
Per me il resync è una conseguenza del congelamento del server che può dipendere dall'alimentatore ma ancor di più dalla scheda madre/processore/memorie.

Hai controllato nei log se hai errori di memoria? Un server che si congela per 10 minuti non é per niente rassicurante!

Tasslehoff
19-01-2016, 20:46
Controlla anche il /var/log/messages ed eventuali copie ruotate da logwatch.

Hai provato a controllare se in corrispondenza di questi blocchi c'è un qualche picco di carico su qualche risorsa?
Puoi controllarlo facilmente installando sar (package sysstat) oppure nmon.
Dai log generati da questi tool puoi ricavare dei grafici molto parlanti usando rispettivamente ksar oppure nmonvisualizer.

LucaZPF
20-01-2016, 07:49
Grazie dei consigli;

anche a me è venuto il dubbio dell'alimentatore, o peggio della scheda madre, perchè in passato aveva già mostrato comportamenti strani, del tipo che se collego una tastiera ad una determinata porta USB si impalla tutto. Fortunatamente però è da parecchio che mi collego solamente in SSH e non ho avuto bisogno (a parte recentemente quando ha cominciato a dare i numeri come sopra descritto) e mi ero quasi dimenticato di questo problema della USB.

la cosa che mi è più semplice al momento è provare con un nuovo alimentatore; poi vedo, se lo fa ancora ho escluso una cosa e provo ad andare a fondo con quanto consigliato

intanto grazie, ciao