LINUX.ORG.RU
ФорумAdmin

Сервер уходит в ребут поод нагрузкой на hdd

 , ,


0

1

Вот кусок из vmcore-dmesg

<4>------------[ cut here ]------------
<4>WARNING: at net/sched/sch_generic.c:261 dev_watchdog+0x26b/0x280() (Tainted: P           ---------------   )
<4>Hardware name: ProLiant DL360e Gen8
<6>NETDEV WATCHDOG: eth0 (igb): transmit queue 5 timed out
<4>Modules linked in: ip6_tables ebtable_nat ebtables autofs4 cpufreq_ondemand freq_table pcc_cpufreq bridge stp llc ipt_MASQUERADE iptable_nat nf_nat xt_CHECKSUM iptable_mangle xt_physdev ipt_REJECT nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack iptable_filter ip_tables vhost_net macvtap macvlan tun kvm_intel kvm power_meter microcode iTCO_wdt iTCO_vendor_support hpilo hpwdt igb i2c_algo_bit i2c_core ptp pps_core serio_raw sg lpc_ich mfd_core ioatdma dca shpchp ext4 jbd2 mbcache sr_mod cdrom sd_mod crc_t10dif ahci hpvsa(P)(U) dm_mirror dm_region_hash dm_log dm_mod [last unloaded: scsi_wait_scan]
<4>Pid: 0, comm: swapper Tainted: P           ---------------    2.6.32-431.el6.x86_64 #1
<4>Call Trace:
<4> <IRQ>  [<ffffffff81071e27>] ? warn_slowpath_common+0x87/0xc0
<4> [<ffffffff81071f16>] ? warn_slowpath_fmt+0x46/0x50
<4> [<ffffffff8147b74b>] ? dev_watchdog+0x26b/0x280
<4> [<ffffffff81094fcd>] ? insert_work+0x6d/0xb0
<4> [<ffffffff8147b4e0>] ? dev_watchdog+0x0/0x280
<4> [<ffffffff81084b07>] ? run_timer_softirq+0x197/0x340
<4> [<ffffffff810ac8f5>] ? tick_dev_program_event+0x65/0xc0
<4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0
<4> [<ffffffff810ac9ca>] ? tick_program_event+0x2a/0x30
<4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30
<4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0
<4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90
<4> [<ffffffff815310aa>] ? smp_apic_timer_interrupt+0x4a/0x60
<4> [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20
<4> <EOI>  [<ffffffff812e09be>] ? intel_idle+0xde/0x170
<4> [<ffffffff812e09a1>] ? intel_idle+0xc1/0x170
<4> [<ffffffff814266f7>] ? cpuidle_idle_call+0xa7/0x140
<4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110
<4> [<ffffffff81520e13>] ? start_secondary+0x2ac/0x2ef
<4>---[ end trace 63ba546275186e59 ]---
и потом в конце слошные <3>sd 0:0:0:0: rejecting I/O to offline device



Последнее исправление: MFlyagin (всего исправлений: 1)

Где это видно ?

vlb ★★★
()

Не было ли у тебя мысли, что HDD таки подыхает? Или питания не хватает?

Олсо, про конфигурацию накопителей расскажи, что да как. Рейд небось железный используешь?

tiandrey ★★★★★
()
Последнее исправление: tiandrey (всего исправлений: 1)
Ответ на: комментарий от tiandrey

Или питания не хватает?

Это, кстати, вполне возможно, особенное если сервак умеет ограничивать максимальное потребление (или хостер умеет).

soomrack ★★★★★
()

вообще то, ругается на сетевую карту, с такой бедой на intel уже сталкивался
1. сервер судя по всему еще на гарантии, можно скачать обновления прошивки сетевых карт
2. rejecting I/O to offline device - обычно гадит в логи постоянно, и связано с виртуальным DVD из iLo
3. Для такой машинка ядро старовато, видимо надо обновляться до el7

Bloody ★★
()
Ответ на: комментарий от tiandrey

Контроллер HP Dynamic Smart Array B320i RAID Controller Винты MB0500GCEHF x 4 RAID 10 По поводу умирающего HDD мысли были, но контроллер об этом молчит и говорит что все ок. Тесты тоже проходят нормально. И на этом сервере вертится 5 виртуальных машин которые никаких проблем не вызывают. Но вот уже несколько раз было замечено, что когда я на самой машине нагружаю винт (до этого случая копировал образ виртуалки в другое место, в этот раз через dd тестировал скорость записи) уходит в ребут.

MFlyagin
() автор топика
Ответ на: комментарий от MFlyagin

У HP иногда и сами контроллеры барахлят. У нас на Gen8 и Gen9 были и железные проблемы (меняли мать), и проблемы с прошивкой - погугли у них свою версию прошивки и связанные с ней проблемы.

tiandrey ★★★★★
()
Ответ на: комментарий от MFlyagin

Буду не оригинален, бп тоже вполне может быть тому виной.

anc ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.