История изменений
Исправление GPFault, (текущая версия) :
Насчёт софтварных методов - всё довольно негусто, т.к. софтварно там имеет смысл диагностировать только «чип VS память VS флешка». (флешки дохлые бывают, после чьей-то «помощи»).
Соответственно софтварные подходы применяются после того как проверили что есть все питания и enable основного чипа:
- Если PCIe-устройство не определяется в lspci/диспетчере устройств - чипу хана, память и флеха непричём. Как минимум список PCIe bar (Memory at …) должен появляться. Наличие таких Memory at в списке говорит о том что cpu получил список потенциально инициализируемых отображений со стороны памяти, со стороын gpu оно может быть совершенно не готово, это нормально
- Если nvflash не может шить/читать флешку - чипу/флешке хана, память непричём (т.к. это и при снятой памяти работает). Если на ноуте своей флешки у чипа нет - неприменимо
- Дальше mats или его функциональный аналог (мой скрипт, описанный https://vlab.su/viewtopic.php?p=404034#p404034). Про них есть следующие нюансы:
- Если фейлится тест памяти меньший чем объём кеша у nvidia - память непричём, виноват чип. Размер кеша по чипам - тут: https://www.techpowerup.com/gpu-specs/geforce-gtx-1050-mobile.c2917
- Принцип действия что у mats что у скрипта одинаков - они тестируют память отображённую на адресное пространство CPU через PCIe bar. Если это отображение при загрузке или ините драйвера не инициализировалось - ничего работать не будет, создавать они его не умеют. Будет показывать что вся память не работает. Гарантированного способа его инициализировать мне неизвестно. Также неизвестно бывает ли что это отображение не инициализируется из-за проблемной памяти. Плюс, недавно попалась карта где отображения появлялось через 3 минуты после попытки загрузки драйвера (хотя сообщение об ошибке выскакивало немедленно). То есть на той карте было так: на линуксе,
nvidia-smi
, ждём 3 минуты, запускаем mats. Определило проблему взаимодйствия с одним модулем, обрывов дорог не было, но замена модуля не помогла - дело в чипе.- попытаться его поинитить можно загрузкой проприетарного или открытого драйвера. Оба они часто просто вешают систему при нерабочей карте, как повезёт. Чтоб вообще экспериментировать в этом направлении вероятно надо запускать mats не на урезанном линуксе который идёт в комплекте с mats, а на обычном, с актуальными драйверами (впрочем урезанной я и не видел, так что хз про неё). mats-у для работы нужен специальный драйвер. Актуальная версия - https://github.com/galkinvv/mods-driver инструкция там же.
- Применительно к специфике и граблям видях на ноутах - у меня абсолютно нулевой опыт. Все гипотезы о нюансах описывал в https://vlab.su/viewtopic.php?p=714673#p714673 Зависание в линуксе на agpgart не видел, скорее всего специфика ноутов. Вообще agpgart давно в логах не видел. Древнее ядро?
А пятно - чаще всего горелость по одной из линий питания. К слову, чипы с КЗ по питанию и трещинами иногда вполне себе показыват иногда даже 3D. Только недолго. А определяется как PCIe - так вообще почти всё
Исправление GPFault, :
Насчёт софтварных методов - всё довольно негусто, т.к. софтварно там имеет смысл диагностировать только «чип VS память VS флешка». (флешки дохлые бывают, после чьей-то «помощи»).
Соответственно софтварные подходы применяются после того как проверили что есть все питания и enable основного чипа:
- Если PCIe-устройство не определяется в lspci/диспетчере устройств - чипу хана, память и флеха непричём. Как минимум список PCIe bar (Memory at …) должен появляться. Наличие таких Memory at в списке говорит о том что cpu получил список потенциально инициализируемых отображений со стороны памяти, со стороын gpu оно может быть совершенно не готово, это нормально
- Если nvflash не может шить/читать флешку - чипу/флешке хана, память непричём (т.к. это и при снятой памяти работает). Если на ноуте своей флешки у чипа нет - неприменимо
- Дальше mats или его функциональный аналог (мой скрипт, описанный https://vlab.su/viewtopic.php?p=404034#p404034). Про них есть следующие нюансы:
- Если фейлится тест памяти меньший чем объём кеша у nvidia - память непричём, виноват чип. Размер кеша по чипам - тут: https://www.techpowerup.com/gpu-specs/geforce-gtx-1050-mobile.c2917
- Принцип действия что у mats что у скрипта одинаков - они тестируют память отображённую на адресное пространство CPU через PCIe bar. Если это отображение при загрузке или ините драйвера не инициализировалось - ничего работать не будет, создавать они его не умеют. Будет показывать что вся память не работает. Гарантированного способа его инициализировать мне неизвестно. Также неизвестно бывает ли что это отображение не инициализируется из-за проблемной памяти. Плюс, недавно попалась карта где отображения появлялось через 3 минуты после попытки загрузки драйвера (хотя сообщение об ошибке выскакивало немедленно). То есть на той карте было так: на линуксе,
nvidia-smi
, ждём 3 минуты, запускаем mats. Определило проблему взаимодйствия с одним модулем, обрывов дорог не было, но замена модуля не помогла - дело в чипе. - попытаться его поинитить можно загрузкой проприетарного или открытого драйвера. Оба они часто просто вешают систему при нерабочей карте, как повезёт. Чтоб вообще экспериментировать в этом направлении вероятно надо запускать mats не на урезанном линуксе который идёт в комплекте с mats, а на обычном, с актуальными драйверами (впрочем урезанной я и не видел, так что хз про неё). mats-у для работы нужен специальный драйвер. Актуальная версия - https://github.com/galkinvv/mods-driver инструкция там же.
- Применительно к специфике и граблям видях на ноутах - у меня абсолютно нулевой опыт. Все гипотезы о нюансах описывал в https://vlab.su/viewtopic.php?p=714673#p714673
А пятно - чаще всего горелость по одной из линий питания.
Исходная версия GPFault, :
Насчёт софтварных методов - всё довольно негусто, т.к. софтварно там имеет смысл диагностировать только «чип VS память VS флешка». (флешки дохлые бывают, после чьей-то «помощи»).
Соответственно софтварные подходы применяются после того как проверили что есть все питания и enable основного чипа:
- Если PCIe-устройство не определяется в lspci/диспетчере устройств - чипу хана, память и флеха непричём. Как минимум список PCIe bar (Memory at …) должен появляться. Наличие таких Memory at в списке говорит о том что cpu получил список потенциально инициализируемых отображений со стороны памяти, со стороын gpu оно может быть совершенно не готово, это нормально
- Если nvflash не может шить/читать флешку - чипу/флешке хана, память непричём (т.к. это и при снятой памяти работает). Если на ноуте своей флешки у чипа нет - неприменимо
- Дальше mats или его функциональный аналог (мой скрипт, описанный https://vlab.su/viewtopic.php?p=404034#p404034). Про них есть следующие нюансы:
** Если фейлится тест памяти меньший чем объём кеша у nvidia - память непричём, виноват чип. Размер кеша по чипам - тут: https://www.techpowerup.com/gpu-specs/geforce-gtx-1050-mobile.c2917
** Принцип действия что у mats что у скрипта одинаков - они тестируют память отображённую на адресное пространство CPU через PCIe bar. Если это отображение при загрузке или ините драйвера не инициализировалось - ничего работать не будет, создавать они его не умеют. Будет показывать что вся память не работает. Гарантированного способа его инициализировать мне неизвестно. Также неизвестно бывает ли что это отображение не инициализируется из-за проблемной памяти. Плюс, недавно попалась карта где отображения появлялось через 3 минуты после попытки загрузки драйвера (хотя сообщение об ошибке выскакивало немедленно). То есть на той карте было так: на линуксе,
nvidia-smi
, ждём 3 минуты, запускаем mats. Определило проблему взаимодйствия с одним модулем, обрывов дорог не было, но замена модуля не помогла - дело в чипе. *** попытаться его поинитить можно загрузкой проприетарного или открытого драйвера. Оба они часто просто вешают систему при нерабочей карте, как повезёт. Чтоб вообще экспериментировать в этом направлении вероятно надо запускать mats не на урезанном линуксе который идёт в комплекте с mats, а на обычном, с актуальными драйверами (впрочем урезанной я и не видел, так что хз про неё). mats-у для работы нужен специальный драйвер. Актуальная версия - https://github.com/galkinvv/mods-driver инструкция там же.
** Применительно к специфике и граблям видях на ноутах - у меня абсолютно нулевой опыт. Все гипотезы о нюансах описывал в https://vlab.su/viewtopic.php?p=714673#p714673
А пятно - чаще всего горелость по одной из линий питания.