Перестала работать видюшка, сдал её в СЦ. Через неделю перезвонили и сказали, что сгорел чип, нужно менять. Цена замены чипа соразмерима с б/у'шной моделью этой видеокарты, но они дают гарантию несколько месяцев после ремонта, в отличии от продавцов на интеренет аукционах, поэтому я согласился. Прошла еще одна неделя. Звонок из СЦ: замена чипа ни к чему не привела, оказалось, что «проблемы с текстолитом» и это не поддается ремонту, приезжайте, забирайте.
Я понятия не имею, что такое «проблемы с текстолитом». Карта надежно сидела в системном блоке, не вынималась, не ронялась, не обливалась жидкостями, не перегревалась - ~75 градусов в нагрузке во время стресс-тестов (при допустмых 95). Гарантия истекла буквально 2 месяца назад. Около месяца назад стал крашиться видеодрайвер после ~5 минут нагрузки (как на линуксе, так и на оффтопе), при этом температура была в пределах нормы.
Предсмертная речь:
[ 7664.597685] NVRM: GPU at PCI:0000:01:00: GPU-7a6ad0f4-fac5-d459-e237-9c2a4443751e
[ 7664.597689] NVRM: Xid (PCI:0000:01:00): 79, GPU has fallen off the bus.
[ 7664.597690] NVRM: GPU at 0000:01:00.0 has fallen off the bus.
[ 7664.598127] NVRM: A GPU crash dump has been created. If possible, please run
NVRM: nvidia-bug-report.sh as root to collect this data before
NVRM: the NVIDIA kernel module is unloaded.
[ 8197.769382] BUG: unable to handle kernel NULL pointer dereference at 0000000000000160
[ 8197.769424] IP: [<ffffffffa1682f56>] _nv015951rm+0x1c6/0x2b0 [nvidia]
[ 8197.769634] PGD 0
[ 8197.769642] Oops: 0000 [#1] SMP
[ 8197.769651] Modules linked in: nvidia_uvm(PO) nvidia(PO) snd_hda_codec_realtek snd_hda_codec_generic thermal battery input_leds xpad joydev ff_memless acpi_cpufreq processor x86_pkg_temp_thermal kvm_intel btusb btrtl kvm btbcm btintel irqbypass pcspkr snd_hda_intel snd_hda_codec snd_hda_core snd_hwdep i2c_i801 snd_pcm e1000e snd_timer fan i2c_smbus snd i915 video button i2c_algo_bit drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm backlight xts gf128mul aes_x86_64 cbc sha512_generic sha1_generic libiscsi scsi_transport_iscsi ixgb ixgbe dca tulip cxgb3 cxgb mdio macvlan tg3 libphy sky2 pcnet32 e1000 bnx2 fuse nfs lockd grace sunrpc jfs multipath raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor xor async_tx raid6_pq dm_snapshot dm_bufio dm_crypt dm_mirror dm_region_hash
[ 8197.770086] dm_log dm_mod hid_sunplus hid_sony hid_samsung hid_pl hid_petalynx hid_gyration hid_apple sl811_hcd ohci_pci ohci_hcd uhci_hcd usb_storage aic94xx libsas lpfc crc_t10dif crct10dif_common qla2xxx megaraid_sas megaraid_mbox megaraid_mm megaraid aacraid sx8 DAC960 cciss 3w_9xxx 3w_xxxx mptsas scsi_transport_sas mptfc scsi_transport_fc mptspi mptscsih mptbase atp870u dc395x qla1280 imm parport dmx3191d sym53c8xx gdth initio BusLogic arcmsr aic7xxx aic79xx scsi_transport_spi sg pdc_adma sata_inic162x sata_mv ata_piix sata_qstor sata_vsc sata_uli sata_sis sata_sx4 sata_nv sata_via sata_svw sata_sil24 sata_sil sata_promise pata_sl82c105 pata_via pata_jmicron pata_marvell pata_sis pata_netcell pata_pdc202xx_old pata_triflex pata_atiixp pata_opti pata_amd pata_ali pata_it8213 pata_pcmcia pcmcia
[ 8197.770509] pcmcia_core pata_ns87415 pata_ns87410 pata_serverworks pata_artop pata_it821x pata_optidma pata_hpt3x2n pata_hpt3x3 pata_hpt37x pata_hpt366 pata_cmd64x pata_efar pata_rz1000 pata_sil680 pata_radisys pata_pdc2027x pata_mpiix led_class usbhid ahci libahci xhci_pci ehci_pci r8169 xhci_hcd ehci_hcd mii libata ptp usbcore pps_core usb_common
[ 8197.770690] CPU: 2 PID: 16959 Comm: gpu_test Tainted: P O 4.9.16-gentoo #1
[ 8197.770722] Hardware name: ASUS All Series/SABERTOOTH Z87, BIOS 2103 08/18/2014
[ 8197.770751] task: ffff88080f0d4bc0 task.stack: ffffc90000908000
[ 8197.770773] RIP: 0010:[<ffffffffa1682f56>] [<ffffffffa1682f56>] _nv015951rm+0x1c6/0x2b0 [nvidia]
[ 8197.770981] RSP: 0000:ffffc9000090ba20 EFLAGS: 00010246
[ 8197.771000] RAX: 0000000000000000 RBX: ffff88080dd42f60 RCX: 00000000bf369fff
[ 8197.771028] RDX: 00000000bf369000 RSI: 0000000000000000 RDI: ffff88080e158008
[ 8197.771056] RBP: ffff88080dd42f28 R08: 0000000000000000 R09: 0000000000000001
[ 8197.771083] R10: 0000000002020008 R11: ffffffffa187d740 R12: ffff88080e158008
[ 8197.771111] R13: 0000000000000001 R14: 00000000bf369000 R15: 0000000000001000
[ 8197.771139] FS: 0000000000000000(0000) GS:ffff88082fa80000(0000) knlGS:0000000000000000
[ 8197.771170] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[ 8197.771192] CR2: 0000000000000160 CR3: 0000000001807000 CR4: 00000000001406e0
[ 8197.771218] Stack:
[ 8197.771223] 0000000000000000 00000000000bf369 ffff88080e4ae008 ffff88080dd430b8
[ 8197.771257] 0000000000000000 ffffffffa15ce0b0 ffff88080e4ae008 00000000000bf369
[ 8197.771290] 0000000000000000 ffff88080dd430b8 ffff880803deda08 ffffffffa1870ded
[ 8197.771323] Call Trace:
[ 8197.771476] [<ffffffffa15ce0b0>] ? _nv010389rm+0xb0/0x270 [nvidia]
[ 8197.771619] [<ffffffffa1870ded>] ? _nv016944rm+0x6bd/0x700 [nvidia]
[ 8197.771763] [<ffffffffa18713b0>] ? _nv016990rm+0x20/0xc0 [nvidia]
[ 8197.771893] [<ffffffffa18e1090>] ? rm_gpu_ops_stop_channel+0x120/0x140 [nvidia]
[ 8197.772021] [<ffffffffa1329a4c>] ? nvUvmInterfaceStopChannel+0x2c/0x3d [nvidia]
[ 8197.772058] [<ffffffffa0d7539f>] ? uvm_user_channel_stop+0x2f/0x40 [nvidia_uvm]
[ 8197.772092] [<ffffffffa0d4c8fa>] ? uvm_procfs_get_gpu_base_dir+0x54a/0x590 [nvidia_uvm]
[ 8197.772128] [<ffffffffa0d4db91>] ? uvm_va_space_destroy+0x361/0x370 [nvidia_uvm]
[ 8197.772162] [<ffffffffa0d443fc>] ? gmmuFmtInitPteCompTags+0x22c/0x1ab0 [nvidia_uvm]
[ 8197.772193] [<ffffffff810ff3b3>] ? __fput+0xed/0x19f
[ 8197.772212] [<ffffffff810ff491>] ? ____fput+0x9/0xb
[ 8197.772231] [<ffffffff810583ee>] ? task_work_run+0x67/0x7f
[ 8197.772252] [<ffffffff810457b6>] ? do_exit+0x3cb/0x87b
[ 8197.772272] [<ffffffff8105eda1>] ? try_to_wake_up+0x20b/0x21d
[ 8197.772294] [<ffffffff810467f9>] ? do_group_exit+0x3f/0x96
[ 8197.772316] [<ffffffff8104e13d>] ? get_signal+0x44a/0x476
[ 8197.772337] [<ffffffff81063539>] ? update_curr+0x64/0x8e
[ 8197.772358] [<ffffffff81014d50>] ? do_signal+0x23/0x556
[ 8197.772378] [<ffffffff8106957f>] ? pick_next_task_fair+0xff/0x74a
[ 8197.772401] [<ffffffff8106957f>] ? pick_next_task_fair+0xff/0x74a
[ 8197.772425] [<ffffffff81001034>] ? exit_to_usermode_loop+0x34/0x70
[ 8197.772450] [<ffffffff8100138b>] ? syscall_return_slowpath+0x3e/0x51
[ 8197.772475] [<ffffffff8157bb9f>] ? entry_SYSCALL_64_fastpath+0x92/0x94
[ 8197.772500] Code: 0f 00 00 00 0f 84 d4 fe ff ff 48 8b 83 88 00 00 00 45 31 c0 48 85 c0 0f 85 c2 00 00 00 4c 89 f2 4b 8d 4c 3e ff 4c 89 c6 4c 89 e7 <41> ff 90 60 01 00 00 84 c0 8b 43 08 0f 94 c2 a9 00 00 00 01 0f
[ 8197.772661] RIP [<ffffffffa1682f56>] _nv015951rm+0x1c6/0x2b0 [nvidia]
[ 8197.772857] RSP <ffffc9000090ba20>
[ 8197.772868] CR2: 0000000000000160
[ 8197.794187] ---[ end trace 27767bb7d123d569 ]---
[ 8197.794188] Fixing recursive fault but reboot is needed!
После этого видеокарта пропала из lspci...
Что это могло быть? И что такое «проблемы с текстолитом» и почему это нельзя исправить?