LINUX.ORG.RU

WARNING: CPU: 5 PID: 0 at net/sched/sch_generic.c:442

 , ,


0

1

Появилось по время копирования файлов на сервер.

Может кто-нибудь объяснить, что здесь происходит?

Это баг дравейра сетевухи? Глюки ядра? Нестабильность CPU/RAM?

[40110.919369] ------------[ cut here ]------------
[40110.919405] NETDEV WATCHDOG: enp1s0 (mlx4_core): transmit queue 0 timed out
[40110.919471] WARNING: CPU: 5 PID: 0 at net/sched/sch_generic.c:442 dev_watchdog+0x24d/0x260
[40110.919771] CPU: 5 PID: 0 Comm: swapper/5 Not tainted 5.10.19-100.fc32.x86_64 #1
[40110.919785] RIP: 0010:dev_watchdog+0x24d/0x260
[40110.919793] Code: 19 c8 fd ff eb a9 4c 89 f7 c6 05 cf 92 30 01 01 e8 48 a7 fa ff 44 89 e9 4c 89 f6 48 c7 c7 70 57 48 a8 48 89 c2 e8 08 d5 15 00 <0f> 0b eb 8a 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 40 00 0f 1f 44
[40110.919798] RSP: 0018:ffffc0a1401acec0 EFLAGS: 00010282
[40110.919806] RAX: 000000000000003f RBX: ffff9c7f83f53ec0 RCX: 0000000000000000
[40110.919810] RDX: ffff9c826fd669e0 RSI: ffff9c826fd58a80 RDI: 0000000000000300
[40110.919815] RBP: ffff9c7f83f203dc R08: 0000000000000000 R09: ffffc0a1401accf0
[40110.919819] R10: ffffc0a1401acce8 R11: ffffffffa8b44748 R12: ffff9c7f83f20480
[40110.919824] R13: 0000000000000000 R14: ffff9c7f83f20000 R15: ffff9c7f83f53f40
[40110.919830] FS:  0000000000000000(0000) GS:ffff9c826fd40000(0000) knlGS:0000000000000000
[40110.919835] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[40110.919839] CR2: 00007fd47ad1324c CR3: 00000001169e0000 CR4: 00000000000006e0
[40110.919843] Call Trace:
[40110.919850]  <IRQ>
[40110.919863]  ? pfifo_fast_enqueue+0x150/0x150
[40110.919871]  call_timer_fn+0x29/0xf0
[40110.919878]  __run_timers.part.0+0x1af/0x210
[40110.919885]  ? __hrtimer_run_queues+0x129/0x250
[40110.919892]  ? ktime_get+0x38/0xa0
[40110.919898]  ? lapic_next_event+0x1d/0x20
[40110.919905]  ? clockevents_program_event+0x8d/0xf0
[40110.919912]  run_timer_softirq+0x26/0x50
[40110.919920]  __do_softirq+0xca/0x288
[40110.919929]  asm_call_irq_on_stack+0x12/0x20
[40110.919934]  </IRQ>
[40110.919940]  do_softirq_own_stack+0x37/0x40
[40110.919949]  irq_exit_rcu+0xc2/0x100
[40110.919956]  sysvec_apic_timer_interrupt+0x36/0x80
[40110.919964]  asm_sysvec_apic_timer_interrupt+0x12/0x20
[40110.919971] RIP: 0010:native_safe_halt+0xe/0x10
[40110.919977] Code: 02 20 48 8b 00 a8 08 75 c4 e9 7b ff ff ff cc cc cc cc cc cc cc cc cc cc cc cc cc cc e9 07 00 00 00 0f 00 2d e6 d1 43 00 fb f4 <c3> 90 e9 07 00 00 00 0f 00 2d d6 d1 43 00 f4 c3 cc cc 0f 1f 44 00
[40110.919981] RSP: 0018:ffffc0a1400b7e88 EFLAGS: 00000246
[40110.919988] RAX: 0000000000004000 RBX: 0000000000000001 RCX: 000000000000001f
[40110.919993] RDX: ffff9c826fd40000 RSI: ffff9c7f40b08800 RDI: ffff9c7f40b08864
[40110.919997] RBP: ffff9c7f40b08864 R08: ffffffffa8c61220 R09: 0000000000000018
[40110.920002] R10: 0000000000004124 R11: 0000000000001a5c R12: 0000000000000001
[40110.920006] R13: ffffffffa8c612a0 R14: 0000000000000001 R15: 0000000000000001
[40110.920019]  ? __tick_broadcast_oneshot_control+0x158/0x200
[40110.920025]  acpi_idle_do_entry+0x46/0x50
[40110.920033]  acpi_idle_enter+0x86/0xc0
[40110.920041]  cpuidle_enter_state+0x89/0x350
[40110.920048]  cpuidle_enter+0x29/0x40
[40110.920056]  do_idle+0x1cb/0x270
[40110.920064]  cpu_startup_entry+0x19/0x20
[40110.920072]  secondary_startup_64_no_verify+0xc2/0xcb
[40110.920079] ---[ end trace 55e12b5903107dbe ]---


Последнее исправление: maxlinux (всего исправлений: 2)

не факт. это может быть баг ядра при определенной редкой последовательности событий. Было у меня такое на ARM. Гугли версию ядра и CPU

anonymous
()

тебе же прям явно написали что:


NETDEV WATCHDOG: enp1s0 -> WARNING: -> at net/sched/sch_generic.c - > dev_watchdog -> RIP:- > dev_watchdog и основная проблема -> transmit queue 0 timed out

[40110.919850]  <IRQ>
[40110.919863]  ? pfifo_fast_enqueue+0x150/0x150

вот кусок из скрипта:

static int pfifo_fast_enqueue(struct sk_buff *skb, struct Qdisc *qdisc,
			      struct sk_buff **to_free)
{
	int band = prio2band[skb->priority & TC_PRIO_MAX];
	struct pfifo_fast_priv *priv = qdisc_priv(qdisc);
	struct skb_array *q = band2list(priv, band);
	unsigned int pkt_len = qdisc_pkt_len(skb);
	int err;

	err = skb_array_produce(q, skb);

	if (unlikely(err)) {
		if (qdisc_is_percpu_stats(qdisc))
			return qdisc_drop_cpu(skb, qdisc, to_free);
		else
			return qdisc_drop(skb, qdisc, to_free);
	}

	qdisc_update_stats_at_enqueue(qdisc, pkt_len);
	return NET_XMIT_SUCCESS;
}
 
Что бы я сделал:
1. Откатился на предыдущий драйвер, если не помогло пункт 2.
2. Поставил бы сетевую в другой слот через один от видеокарты.
Если сетевая on board попробовал бы назначить другое прерывание, если позволяет BIOS. 
3. Отключил suspend для сетевой.

e000xf000h
()

баг драйвера либо баг сетевухи. tx блок на сетевке залип почему-то.

если часто сыпет - я бы сменил эмулекс на какой-то интел например.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

всего разок случилось, у меня есть подозрения, что память битая (это не ECC), отсюда и глюки драйвера, но не исключено что все началось после обновления ядра

maxlinux
() автор топика
Ответ на: комментарий от e000xf000h

спасибо попробую,

но случилось это только один раз, после переноса 16Tb данных

если это вполне может быть софтовая проблема, то проверю со старым ядром и проверю память, может быть битая, непонятно просто кого подозревать первым

maxlinux
() автор топика
Ответ на: комментарий от maxlinux

память тут таки, уверен, ни при чем. тут то ли бага драйвера то ли глюки сетевухи.

NiTr0 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.