PDA

View Full Version : kernel: BUG: warning at kernel/cpu.c:51/unlock_cpu_hotplug()


W.S.
28-09-2007, 11:03
Ciao a tutti,
come da titolo ho un problema.
Ho un server che mi logga quell'errore nel kern.log, mi sto documentando in rete ma non ho trovato ste gran chè, a parte un documento dove si accenna al fatto che, secondo gli sviluppatori, quel warning non può accadere...

La CPU è un "Intel(R) Xeon(R) CPU E5320 @ 1.86GHz" dovrebbe essere un 2 core HT.
Distro debian4.0 (stable) kernel 2.6.18-4-686.

il log di un warning è:
Sep 28 07:43:12 XXXX kernel: BUG: warning at kernel/cpu.c:51/unlock_cpu_hotplug()
Sep 28 07:43:12 XXXX kernel: [<c0132a7c>] unlock_cpu_hotplug+0x2c/0x54
Sep 28 07:43:12 XXXX kernel: [<c01187a3>] sched_getaffinity+0x67/0x6e
Sep 28 07:43:12 XXXX kernel: [<c01187c9>] sys_sched_getaffinity+0x1f/0x41
Sep 28 07:43:12 XXXX kernel: [<c0102c11>] sysenter_past_esp+0x56/0x79

E' già successo a qualcuno? Per ora ho deciso di monitorare la cosa e documentarmi il più possibile, non son troppo preoccupato, tutti i servizi ospitati funzionano correttamente e anche il caso di una morte prematura non sarebbe un problema visto che fa parte di un cluster in grado di resistere all'evento.
Potrei aggiornare il kernel ma siccome è in produzione son disposto a farlo solo quando sarò abbastanza sicuro che risolverebbe il problema...

Consigli?

Grazie a tutti!

ilsensine
28-09-2007, 11:20
Sì quel warning NON può accadere.

Possibili cause, in ordine decrescente di probabilità:
- usi qualche driver proprietario
- problema di memoria (una botta di memtest ogni tanto sulle macchine di produzione non fa male)
- qualche oscura corruzione della memoria occorsa in altre parti del kernel

W.S.
28-09-2007, 11:56
Ok, driver proprietari non ne uso, l'unica cosa non libera sono i pacchetti sun-java5 necessari ad alcuni servizi.

Appena posso vado di memtest (intendi il memtest di sysutils vero? Non memtest86, per quello andrebbe riavviata la macchina o sbaglio?).
Cmq, memtest appesantisce molto la macchina? Ci metterà parecchio giusto?

Memoria corrotta per altri motivi spero di no, inizialmente sospettavo qualche rootkit ma visto che l'installazione è tutto sommato recente, macchina poco esposta, segnali sospetti non ne ho visti e chkrootkit non segnala problemi son abbastanza tranquillo. (cmq nn si sa mai)

Grazie mille!

ilsensine
28-09-2007, 12:03
intendevo proprio memtest86...

W.S.
28-09-2007, 12:07
intendevo proprio memtest86...

azz.. quindi devo riavviare e (soprattutto) accedere fisicamente alla macchina? Questo è un grosso problema...

ilsensine
28-09-2007, 12:10
già, inoltre con la possibilità che memtest86 non riporti nulla...non becca tutti gli errori hw possibili...

W.S.
28-09-2007, 12:15
ok, grazie mille per i suggerimenti! :)

ArtX
28-09-2007, 22:17
non è che magari cè qualche problemino con quel kernel e il supporto di una piattaforma core 2 duo, visto che a me quel procio non mi sembra tanto un HT ma uno con tecnologia appunto core (o negli xeon Core 2 cè anche l'HT :o, io non lo so).
cmq che chipset hai, magari è un problema lì e visto che gli Intel hanno il controller di memoria nel chipset chissa (io sto solo ipotizzando:D, non sono un esperto).
cmq anche a me quel kernel sul mio laptop core due (yonah , no merom) non andava propio bene, ora invece con il 2.6.22 và da dio:D
speriamo risolvi

W.S.
29-09-2007, 15:12
Son abbastanza sicuro si tratti di un 2 core + HT (vedo 4 cpu in /proc/cpuinfo e tra i flag c'è ht). Inoltre m'han sempre detto che son dual core.

Cmq, a prescindere dal numero di core ;) quella versione di kernel (anche se ricompilata in modo diverso) la uso pure sul mio portatile che monta un core 2 duo e non mi da problemi. Anche la macchina gemella a quella che solleva l'allarme monta esattamente la stessa installazione, eppure non da problemi quindi son più propenso a qualche compromissione di memoria.

Cmq, potresti aver ragione :) settimana prossima vedrò di fare qualche prova e documentarmi meglio. Per curiosità, che tipo di problemi ti dava?