LINUX.ORG.RU

Не могу отловить конкретную причину oops

 , ,


0

3
[ 6771.448834] BUG: unable to handle kernel paging request at ffffffffa0fac028
[ 6771.448875] IP: [<ffffffff811856a8>] proc_get_inode+0xb8/0x110
[ 6771.448906] PGD 18a4067 PUD 18a5063 PMD 1b9346067 PTE 0
[ 6771.448936] Oops: 0000 [#1] PREEMPT SMP 
[ 6771.448959] Modules linked in: bbswitch(O) iwldvm iwlwifi [last unloaded: nvidia]
[ 6771.449001] CPU: 0 PID: 14670 Comm: plugin-containe Tainted: P        W  O 3.10.0-geek.deylix.4E #11
[ 6771.449040] Hardware name: LENOVO 20132/INVALID, BIOS 5DCN90WW(V8.01) 10/11/2012
[ 6771.449071] task: ffff8802359b6630 ti: ffff8801e85ae000 task.ti: ffff8801e85ae000
[ 6771.449103] RIP: 0010:[<ffffffff811856a8>]  [<ffffffff811856a8>] proc_get_inode+0xb8/0x110
[ 6771.449141] RSP: 0018:ffff8801e85afc98  EFLAGS: 00010246
[ 6771.449165] RAX: 0000000000008000 RBX: ffff8801aae4ed60 RCX: 0000000000000018
[ 6771.449195] RDX: ffffffffa0fabfe0 RSI: 0000000000000001 RDI: ffff8801aae4ed60
[ 6771.449225] RBP: ffff88022b29ce00 R08: 0000000000015020 R09: 0000000000000000
[ 6771.449255] R10: 0000000000000001 R11: ffff88019bd7a780 R12: ffff88019bd7a780
[ 6771.449285] R13: ffff8801aae4efc0 R14: ffff8801e85aff38 R15: 0000000000000024
[ 6771.449315] FS:  00007f4704532940(0000) GS:ffff88023f200000(0000) knlGS:0000000000000000
[ 6771.449354] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[ 6771.449379] CR2: ffffffffa0fac028 CR3: 000000023061c000 CR4: 00000000001407f0
[ 6771.449409] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[ 6771.449439] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
[ 6771.449469] Stack:
[ 6771.449480]  ffff8801e85afd7f ffff88022b29ce00 0000000000000006 ffffffff81189c1d
[ 6771.449517]  ffff8801e85afe88 ffff88019bd7a780 0000000000008000 ffff8801e85afe18
[ 6771.449553]  ffff8801a581cd00 ffffffff811369a4 ffff8801e85afe18 ffff8801a581cd00
[ 6771.449590] Call Trace:
[ 6771.449605]  [<ffffffff81189c1d>] ? proc_lookup_de+0x7d/0xe0
[ 6771.449632]  [<ffffffff811369a4>] ? lookup_real+0x14/0x50
[ 6771.449656]  [<ffffffff8113bd20>] ? do_last+0x970/0xe40
[ 6771.449680]  [<ffffffff81138615>] ? link_path_walk+0x255/0x840
[ 6771.449707]  [<ffffffff8113c2b6>] ? path_openat+0xc6/0x490
[ 6771.449732]  [<ffffffff8113c84e>] ? user_path_at_empty+0x9e/0x120
[ 6771.449759]  [<ffffffff8113c924>] ? do_filp_open+0x44/0xb0
[ 6771.449785]  [<ffffffff811487f0>] ? __alloc_fd+0xc0/0x110
[ 6771.449810]  [<ffffffff8112c4f3>] ? do_sys_open+0xf3/0x1e0
[ 6771.449835]  [<ffffffff81679f92>] ? system_call_fastpath+0x16/0x1b
[ 6771.449862] Code: 48 89 93 30 01 00 00 48 83 c4 08 48 89 d8 5b 5d c3 66 90 48 89 43 48 8b 75 08 85 f6 74 bf 48 89 df e8 dd fa fb ff eb b5 0f 1f 00 <48> 83 7a 48 00 48 c7 c0 c0 71 69 81 48 c7 c2 a0 72 69 81 48 0f 
[ 6771.450041] RIP  [<ffffffff811856a8>] proc_get_inode+0xb8/0x110
[ 6771.450070]  RSP <ffff8801e85afc98>
[ 6771.450085] CR2: ffffffffa0fac028
[ 6771.460647] ---[ end trace 6e49976bf240560f ]---

Появляется при сильной загруженности и/или запуске флеша в браузере(плагин падает, а сам браузер виснит на секунд 20).
geek-sources-3.10 + все флаги выключены, а конфиг от старого, рабочего ядра. Дело явно в ядре, т.к. в geek-sources-3.9.9 все работает нормально.
Еще возникает вот такая проблема:

 4402.776419] vgaarb: device changed decodes: PCI:0000:01:00.0,olddecodes=none,decodes=none:owns=none
[ 4402.776766] [drm] Initialized nvidia-drm 0.0.0 20130102 for 0000:01:00.0 on minor 1
[ 4402.776776] NVRM: loading NVIDIA UNIX x86_64 Kernel Module  325.08  Wed Jun 26 19:29:45 PDT 2013
[ 4402.776798] ------------[ cut here ]------------
[ 4402.776804] WARNING: at fs/proc/generic.c:356 proc_register+0xd8/0x170()
[ 4402.776806] proc_dir_entry 'driver/nvidia' already registered
[ 4402.776807] Modules linked in: nvidia(PO+) bbswitch(O) iwldvm iwlwifi [last unloaded: nvidia]
[ 4402.776815] CPU: 5 PID: 4019 Comm: modprobe Tainted: P           O 3.10.0-geek.deylix.4E #11
[ 4402.776817] Hardware name: LENOVO 20132/INVALID, BIOS 5DCN90WW(V8.01) 10/11/2012
[ 4402.776819]  ffffffff8167311c 0000000000000000 ffffffff810582ba ffff880236233700
[ 4402.776822]  ffff88022b29cf73 ffff88022b29cf00 ffff880236005780 0000000000000000
[ 4402.776825]  ffffffff810583a5 ffffffff817f2c20 ffff880200000028 ffff8801c00c3cb8
[ 4402.776829] Call Trace:
[ 4402.776834]  [<ffffffff8167311c>] ? dump_stack+0xd/0x17
[ 4402.776838]  [<ffffffff810582ba>] ? warn_slowpath_common+0x6a/0xa0
[ 4402.776840]  [<ffffffff810583a5>] ? warn_slowpath_fmt+0x45/0x50
[ 4402.776842]  [<ffffffff81189772>] ? proc_alloc_inum+0x52/0xc0
[ 4402.776844]  [<ffffffff811898b8>] ? proc_register+0xd8/0x170
[ 4402.776847]  [<ffffffff81189a5b>] ? proc_mkdir_data+0x4b/0x70
[ 4402.776897]  [<ffffffffa0e4c73d>] ? nv_register_procfs+0x1d/0x250 [nvidia]
[ 4402.776934]  [<ffffffffa120947c>] ? nvidia_init_module+0x47c/0x706 [nvidia]
[ 4402.776937]  [<ffffffffa1209000>] ? 0xffffffffa1208fff
[ 4402.776939]  [<ffffffff81000302>] ? do_one_initcall+0x112/0x170
[ 4402.776943]  [<ffffffff810bc798>] ? load_module+0x1788/0x2070
[ 4402.776945]  [<ffffffff810b97e0>] ? free_notes_attrs+0x60/0x60
[ 4402.776947]  [<ffffffff811326c1>] ? kernel_read+0x41/0x60
[ 4402.776950]  [<ffffffff810bd1e5>] ? SyS_finit_module+0x95/0xa0
[ 4402.776953]  [<ffffffff81679f92>] ? system_call_fastpath+0x16/0x1b
[ 4402.776954] ---[ end trace 6e49976bf240560e ]---
[ 4402.779811] nvidia 0000:01:00.0: irq 47 for MSI/MSI-X
[ 4405.621559] nvidia 0000:01:00.0: irq 47 for MSI/MSI-X
[ 4707.092813] CPU5: Package power limit notification (total events = 1)
[ 4707.092815] CPU6: Package power limit notification (total events = 1)
[ 4707.092817] CPU1: Package power limit notification (total events = 1)
[ 4707.092819] CPU2: Package power limit notification (total events = 1)
[ 4707.092821] CPU3: Package power limit notification (total events = 1)
[ 4707.092822] CPU0: Package power limit notification (total events = 1)
[ 4707.092823] CPU7: Package power limit notification (total events = 1)
[ 4707.092825] CPU4: Package power limit notification (total events = 1)
[ 4707.095178] CPU2: Package power limit normal
[ 4707.095180] CPU1: Package power limit normal
[ 4707.095181] CPU7: Package power limit normal
[ 4707.095183] CPU5: Package power limit normal
[ 4707.095184] CPU6: Package power limit normal
[ 4707.095186] CPU0: Package power limit normal
[ 4707.095187] CPU3: Package power limit normal
[ 4707.095188] CPU4: Package power limit normal
nvidia-drivers-325.08

★★★★★

Последнее исправление: deterok (всего исправлений: 1)

Немогу

Ну ты понял.

отловить конкретную причину oops

geek-sources

Ну ты понял #2.

anonymous
()

Какой-то кривой драйвер лезет к чужой странице памяти. По-идее, можно взять дамп ядра и проанализировать стек, но практически для этого нужен неплохой скилл программирования линуксового ядра и отладки. Если сам не обладаешь - пиши сперва ментейнерам, а если они пошлют подальше - в lkml.

eagleivg ★★★★★
()

CPU5: Package power limit notification

Ну ты понял #3. Запусти mcelog и отложи кирпичей.

anonymous
()
Ответ на: комментарий от anonymous

Ну, учитывая это:

Появляется при сильной загруженности

по второму случаю вынужден согласиться. А с первым фифти-фифти, дальше лога ТС не привел.

eagleivg ★★★★★
()
Ответ на: комментарий от deterok

Все эти сенсоры показывают погоду на марсе.

grep MCE /proc/interrupts

dmesg |grep -iE 'mce|exception'

mcelog

etc...

anonymous
()
Ответ на: комментарий от deterok

Это в момент OOPS или в простое?

Да

Тролль?

anonymous
()
Ответ на: комментарий от eagleivg

Еще во время загрузки DE на любом ядре ловлю вот такую хрень:

[   47.027647] ata2.00: failed to enable AA (error_mask=0x1)
[   47.034045] ata2.00: failed to enable AA (error_mask=0x1)
(lenovo y580)

deterok ★★★★★
() автор топика
Ответ на: комментарий от deterok

Для спокойствия запусти cpuburn на всех ядрах и посмотри, будут ли упсы. И мониторь при этом температуру. А вообще анонимус дело говорит насчет mce

eagleivg ★★★★★
()
Последнее исправление: eagleivg (всего исправлений: 1)
Ответ на: комментарий от eagleivg

Сейчас эксперементы провожу, похоже дело именно в этом ядре, т.к. на gentoo-sources-3.10 все работает(ну кроме гадостей с failed to enable AA)

deterok ★★★★★
() автор топика

и/или запуске флеша в браузере

Ну вот опять срыв покровов. А мне говорили, что VDPAU у nVidia безпроблемный.

i-rinat ★★★★★
()

Вывод scripts/decodecode по твоему упсу:

[ 6771.449862] Code: 48 89 93 30 01 00 00 48 83 c4 08 48 89 d8 5b 5d c3 66 90 48 89 43 48 8b 75 08 85 f6 74 bf 48 89 df e8 dd fa fb ff eb b5 0f 1f 00 <48> 83 7a 48 00 48 c7 c0 c0 71 69 81 48 c7 c2 a0 72 69 81 48 0f
All code
========
   0:	48 89 93 30 01 00 00 	mov    %rdx,0x130(%rbx)
   7:	48 83 c4 08          	add    $0x8,%rsp
   b:	48 89 d8             	mov    %rbx,%rax
   e:	5b                   	pop    %rbx
   f:	5d                   	pop    %rbp
  10:	c3                   	retq   
  11:	66 90                	xchg   %ax,%ax
  13:	48 89 43 48          	mov    %rax,0x48(%rbx)
  17:	8b 75 08             	mov    0x8(%rbp),%esi
  1a:	85 f6                	test   %esi,%esi
  1c:	74 bf                	je     0xffffffffffffffdd
  1e:	48 89 df             	mov    %rbx,%rdi
  21:	e8 dd fa fb ff       	callq  0xfffffffffffbfb03
  26:	eb b5                	jmp    0xffffffffffffffdd
  28:	0f 1f 00             	nopl   (%rax)
  2b:*	48 83 7a 48 00       	cmpq   $0x0,0x48(%rdx)     <-- trapping instruction
  30:	48 c7 c0 c0 71 69 81 	mov    $0xffffffff816971c0,%rax
  37:	48 c7 c2 a0 72 69 81 	mov    $0xffffffff816972a0,%rdx
  3e:	48                   	rex.W
  3f:	

Code starting with the faulting instruction
===========================================
   0:	48 83 7a 48 00       	cmpq   $0x0,0x48(%rdx)
   5:	48 c7 c0 c0 71 69 81 	mov    $0xffffffff816971c0,%rax
   c:	48 c7 c2 a0 72 69 81 	mov    $0xffffffff816972a0,%rdx
  13:	48                   	rex.W
  14:	

Я не осилил понять, куда это указывает. Надо с vmlinux сверяться.

i-rinat ★★★★★
()
Ответ на: комментарий от i-rinat

В общем нашел сволоту:
Хотел затестить full dynticks, но в последний момент перед сборкой решил собрать ядро с исходным конфигом и отменил флаг.
Но в мести с ним выставились CONFIG_CONTEXT_TRACKING_FORCE и CONFIG_RCU_USER_QS.
Без них перестает oops'ать.(Правда на gentoo-sources нет oops'ов, что настораживает)

deterok ★★★★★
() автор топика
Ответ на: комментарий от deterok

У меня примерно то же самое. Так же oopsает. Плагин в Мозиле падает и виснет на несколько секунд. Ядро 3.10.1-gentoo. То же самое в ядре 3.10.0-gentoo. Выключение флагов CONFIG_CONTEXT_TRACKING_FORCE и CONFIG_RCU_USER_QS не помогает. Пришлось откатиться до 3.9.9.

anonymous
()

Смотрим внимательно это особая уличная магия - итак само ядро версии 3.10.0 и на нем падает модуль nvidia версии 325.08. Да nvidia падает на официально не поддерживаемой версии ядра.

Всегда ваш… с любовью и.о. К.О.

init_6 ★★★★★
()
Ответ на: комментарий от init_6

Спасибо! Точно у меня именно nvidia-drivers-325.08. Ну и да ладно. Будем ждать. :-)

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.