Доброго времени суток!
Установил внешнюю видеокарту nvidia gt 1030 к ноутбуку c intel core i3 через mini-pci вход от wifi модуля с помощью док станции .
Всё отлично работает, за исключением периодических фризов на Ubuntu 18.04, пробовал разные драйвера.
Перейдя на CentOs 7, запустил desktop на intel hd с драйвером Ivi Bridge Mobile, а nvidia оставил только для вычислений в cuda программах.
Однако, проблему это не решило. Карточка по прежнему отваливается.
Теперь моя история:
После старта системы запускаю nvidia-persistenced, чтобы включить карточку.
nvidia-smi карточку прекрасно видит, показывает, что она включена, как и должно быть.
После некоторого времени работы обнаруживаю, что курсор мыши начинает сильно лагать, при этом если пользоваться touchpadом,
то всё нормально. Мышь(беспроводная) подключена через usb 2.0 вход, который шлейфом соединяется с материнкой.
Интересный факт, если подключить мышь к usb 3.0, который припаян к плате напрямую, то мышь лагать перестаёт.
Смотрю логи с помощью команды
grep -i kernel /var/log/messages | grep -i irq | less
ACPI: INT_SRC_OVR (bus 0 bus_irq 0 global_irq 2 dfl dfl)
Feb 20 10:38:52 localhost kernel: ACPI: INT_SRC_OVR (bus 0 bus_irq 9 global_irq 9 high level)
Feb 20 10:38:52 localhost kernel: NR_IRQS:327936 nr_irqs:488 0
Feb 20 10:38:52 localhost kernel: IRQ remapping doesn't support X2APIC mode, disable x2apic.
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKA] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKB] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKC] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKD] (IRQs 1 3 4 5 6 *10 11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKE] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKF] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKG] (IRQs 1 3 4 5 6 10 *11 12 14 15)
Feb 20 10:38:52 localhost kernel: ACPI: PCI Interrupt Link [LNKH] (IRQs 1 3 4 5 6 10 11 12 14 15) *0, disabled.
Feb 20 10:38:52 localhost kernel: PCI: Using ACPI for IRQ routing
Feb 20 10:38:52 localhost kernel: hpet0: at MMIO 0xfed00000, IRQs 2, 8, 0, 0, 0, 0, 0, 0
Feb 20 10:38:52 localhost kernel: Serial: 8250/16550 driver, 4 ports, IRQ sharing enabled
Feb 20 10:38:52 localhost kernel: ehci-pci 0000:00:1a.0: irq 16, io mem 0xb5919000
Feb 20 10:38:52 localhost kernel: ehci-pci 0000:00:1d.0: irq 20, io mem 0xb5918000
Feb 20 10:38:52 localhost kernel: i8042: PNP: PS/2 Controller [PNP0303:PS2K,PNP0f13:PS2M] at 0x60,0x64 irq 1,12
Feb 20 10:38:52 localhost kernel: serio: i8042 KBD port at 0x60,0x64 irq 1
Feb 20 10:38:52 localhost kernel: serio: i8042 AUX port at 0x60,0x64 irq 12
Feb 20 10:38:52 localhost kernel: r8169 0000:02:00.0 eth0: RTL8106e at 0xffffbef240c58000, a0:48:1c:14:8a:5d, XID 04900000 IRQ 25
Feb 20 10:38:52 localhost kernel: ata1: SATA max UDMA/133 abar m2048@0xb5917000 port 0xb5917100 irq 26
Feb 20 10:38:52 localhost kernel: ata5: SATA max UDMA/133 abar m2048@0xb5917000 port 0xb5917300 irq 26
Feb 20 10:50:43 localhost kernel: irq 16: nobody cared (try booting with the "irqpoll" option)
Feb 20 10:50:43 localhost kernel: <IRQ> [<ffffffff88561e41>] dump_stack+0x19/0x1b
Feb 20 10:50:43 localhost kernel: [<ffffffff87f4cc22>] __report_bad_irq+0x32/0xd0
Feb 20 10:50:43 localhost kernel: [<ffffffff87f4a715>] handle_irq_event_percpu+0x55/0x80
Feb 20 10:50:43 localhost kernel: [<ffffffff87f4a77c>] handle_irq_event+0x3c/0x60
Feb 20 10:50:43 localhost kernel: [<ffffffff87f4ddd9>] handle_fasteoi_irq+0x59/0x110
Feb 20 10:50:43 localhost kernel: [<ffffffff87e2e554>] handle_irq+0xe4/0x1a0
Feb 20 10:50:43 localhost kernel: [<ffffffff885795dd>] do_IRQ+0x4d/0xf0
Feb 20 10:50:43 localhost kernel: [<ffffffff882fa4b0>] usb_hcd_irq
Feb 20 10:50:43 localhost kernel: Disabling IRQ #16
Далее, проверяю, что мне даёт nvidia-smi:
Unable to determine the device handle for GPU 0000:01:00.0: GPU is lost. Reboot the system to recover this GPU
Отвалилась. Думаю, что эта же проблема приводила к фризам на Ubuntu при запуске дисплея на nvidia gpu.
На Ubuntu 18.04 я не мог запустить дисплей от
intel HD, так, чтобы потом пользоваться nvidia для вычислений, т.к. не мог запустить nvidia-persitenced, чтобы включить карточку. А это уже, наверное, отдельная тема.
Поискал готовое решение проблемы, вроде как можно попробовать добавить опцию при запуске ядра noirqdebug или irqpoll, однако,
как я понимаю, это консервативные решения, а проблема глубже: либо в багованности pci контроллера, либо в драйверах, а может
в самом eGPU. Поэтому, интересны последствия консервативного решения, чем расплачиваться, производительностью?
Ещё интересна строчка: IRQ remapping doesn't support X2APIC mode, disable x2apic.
Не совсем понимаю, что она значит.
lspci:
l00:00.0 Host bridge: Intel Corporation 3rd Gen Core processor DRAM Controller (rev 09)
00:02.0 VGA compatible controller: Intel Corporation 3rd Gen Core processor Graphics Controller (rev 09)
00:14.0 USB controller: Intel Corporation 7 Series/C210 Series Chipset Family USB xHCI Host Controller (rev 04)
00:16.0 Communication controller: Intel Corporation 7 Series/C216 Chipset Family MEI Controller #1 (rev 04)
00:1a.0 USB controller: Intel Corporation 7 Series/C216 Chipset Family USB Enhanced Host Controller #2 (rev 04)
00:1b.0 Audio device: Intel Corporation 7 Series/C216 Chipset Family High Definition Audio Controller (rev 04)
00:1c.0 PCI bridge: Intel Corporation 7 Series/C216 Chipset Family PCI Express Root Port 1 (rev c4)
00:1c.1 PCI bridge: Intel Corporation 7 Series/C210 Series Chipset Family PCI Express Root Port 2 (rev c4)
00:1c.2 PCI bridge: Intel Corporation 7 Series/C210 Series Chipset Family PCI Express Root Port 3 (rev c4)
00:1d.0 USB controller: Intel Corporation 7 Series/C216 Chipset Family USB Enhanced Host Controller #1 (rev 04)
00:1f.0 ISA bridge: Intel Corporation HM76 Express Chipset LPC Controller (rev 04)
00:1f.2 SATA controller: Intel Corporation 7 Series Chipset Family 6-port SATA Controller [AHCI mode] (rev 04)
00:1f.3 SMBus: Intel Corporation 7 Series/C216 Chipset Family SMBus Controller (rev 04)
01:00.0 VGA compatible controller: NVIDIA Corporation GP108 [GeForce GT 1030] (rev a1)
01:00.1 Audio device: NVIDIA Corporation GP108 High Definition Audio Controller (rev a1)
02:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL810xE PCI Express Fast Ethernet controller (rev 07)
Сейчас попробую вписать в опции ядра irqpoll, отпишусь, пропала ли проблема.
Вообщем, буду рад, увидеть ваши советы: из-за чего эта проблема может возникать
и нужно ли отказываться от внешней gpu, поможет ли смена видеокарты?