LINUX.ORG.RU

комп зависает намертво при запуске программ

 , ,


0

2

Здравствуйте! У нас имеется небольшой компьютерный кластер, в котором имеются 2 компьютера с проблемой. При запуске на них некоторых программ для расчётов удалённо может произойти тотальное зависание, которое ликвидируется только при отключения компа от питания. При сдаче в техобслуживание, было объяснено, что выбранная оперативная память Kingston KF3200C16D4/32GX не предназначена для использования компа как воркстанции в кластере, но даже без использования программы для распараллеливания типа SLURM, а напрямую, происходит такое зависание. В остальных компьютерах стоят Kingston KF3600C18D4/32GX. Можно ли как-то выяснить, в чем конкретно происходит ошибка? В syslog не отражается какой-либо процесс, который приводит к фатальной ошибке.

Вопрос звучит странно. Если компьюет зависает при запуске определённой программы, то это не означает, что он не зависнет если эту программу не запускать.

И по памяти станное утверждение, память либо рабочая, либо нет, он вычислительной нагрузки не зависит (понятно, что речь про штатные частоты и нормальное охлаждение). Если бы советовали систему с ECC, но это и память и материнка другая. А так, такие же планки, но на более высокую частоту.

Система что-нибудь успевает вывести на монитор (kernel panic)?

Вобще, часто бывает невозможно определить что именно глючит в материнке, ну протереть контакты памяти, посмотреть конденсаторы, поменять блок питания...

mky ★★★★★
()

Смотрите логи.

Наиболее вероятные (имхо) проблемные места по железу:

  1. память битая, проверяется мемтестом, желательно прогнать несколько раз

  2. нехватает питания процу при полной загрузки, смотрится на даташит материнки и считается по включенным компонентам не превысили ли… lm-sensors для некоторых моделей выводит текущую потребляемую мощность…

  3. БП не тянет. Проверяется заменой БП на более мозный.

Еще само железо может быть с внутренними проблемами: материнка, проц… Проверять муторно…

Бывает косвенное влияние всякого прочего железа, типа умирающего диска, это тоже может приводить к замедлению системы до уровня, на котором ее особо не отличишь от зависания.

Софтовые проблемы, например, компиляция была выполнена с флагами не подходящими для текущего железа…

Комментарий техобслуживания – странный.

Короче, я бы посоветовал:

  1. посмотреть логи

  2. посмотреть на монитор в процессе зависания

  3. снизить потребляемую мощность – уменьшить частоту проца и частоту памяти.

soomrack ★★★★★
()

«При сдаче в техобслуживание, было объяснено, что выбранная оперативная память Kingston KF3200C16D4/32GX не предназначена для использования компа как воркстанции в кластере» — это вас послали прямым текстом. Какая разница, в кластере он, или нет? Запустите свою вешающую программу на конкретном PC командой типа mpiexec -I 10 ./my_program, по идее должно точно так же повеситься.

sshestov ★★
()
Ответ на: комментарий от mky

Никаких сообщений не выдаёт, экран сразу тухнет, но выяснилось, что при попытке запустить программу на 32 потоках (у нас 16 ядер с 32 потоками AMD Ryzen 9 5950X 16-Core) система крашится. Однако на компах с таким же идентичным процессором такого не происходит. Что может так ограничивать распараллеливание?

tigol31
() автор топика
Ответ на: комментарий от tigol31

Однако на компах с таким же идентичным процессором такого не происходит. Что может так ограничивать распараллеливание?

Возможно общая нагрузка. Материнка не вытягивает, память не вытягивает на таких частотах, БП не вытягивает… Почему на других таких же вытягивает – ну повезло, там чуть качественней сделаны экземпляры оказались…

soomrack ★★★★★
()
Ответ на: комментарий от tigol31

Стоит ли обновить BIOS?

Посмотри на сайте производителя материнки, какие ошибки в новых биосах были исправлены. Просто так биос обновлять смысла нет.

С пониженными частотами проца/памяти проблем с зависанием нет?

soomrack ★★★★★
()
Ответ на: комментарий от tigol31

экран сразу тухнет

Похоже что-то в защиту уходит: проц(по перегреву например), материнка(тут уже вариантов больше), бп. Еще как вариант может быть не вставлен или плохо вставлен разъем доп питания cpu на материнке

cobold ★★★★★
()
Последнее исправление: cobold (всего исправлений: 1)
Ответ на: комментарий от mky

И по памяти станное утверждение, память либо рабочая, либо нет, он вычислительной нагрузки не зависит

вообще-то зависит. кингсшлак в свое время на ам2+ глючил именно в определенных тестах мемтеста, редко (порядка 1 сбоя в сутки), это выливалось в сегфолты при компиляции больших проектов. выкинул каку, поставил ецц - и свершилось чудо, ошибки исчезли - даже скорректированных не было.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

в сегфолты при компиляции больших проектов.

Ну, дак поди и на счётных задачах сбоило бы и в тяжёлых играх. Или что, LinPack работал, только gcc падал?

глючил именно в определенных тестах мемтеста, редко

Memtest86, ЕМНИП, позволял задать область адресов, и, бывало, что картина менялась. То есть как только проблемные адреса получали нагрузку, так сбои происходили часто. Что означает, что в реальной жизни, даже в ненагруженой системе, если на этих адресах окажется важный код, будут сбои. И от подозрительно памяти лучше избаваляться сразу, ИМХО, а не использовать её для ненагруженых компов, которые не «воркстанции в кластере».

выкинул каку,

Выкинули или поставили в ненагруженый комп?

mky ★★★★★
()
Ответ на: комментарий от mky

Ну, дак поди и на счётных задачах сбоило бы и в тяжёлых играх.

в счетных задачах - возможно. в играх - не факт, была лет 20 назад стабильно сбоящая по определенным адресам память, которая не вызывала никаких глюков на игровом компе…

И от подозрительно памяти лучше избаваляться сразу, ИМХО, а не использовать её для ненагруженых компов, которые не «воркстанции в кластере».

если комп это печатная машинка/медиаприставка без важных данных - то какбы пофиг на нем на сбои памяти. ну подвиснет или словит сегфолт - и что?

NiTr0 ★★★★★
()

Если у вас несколько более-менее однотипных компьютеров, среди которых есть полностью рабочие, то вопрос вызывает недоумение - почему вы не начали просто менять носки с левой ноги на правую переставлять местами блоки в компьютерах - память, бп, процессоры? И следить куда перехал дефект? Проблема локализуется буквально после первых же нескольких перестановок.

vaddd ★☆
()
Ответ на: комментарий от NiTr0

или словит сегфолт

Ну дак это может начать повторятся каждый день. Какое-нибудь обновление встанет и в проблемные адреса стабильно начинает загружаться какая-нибудь библиотека.

А так да, «и что»? Помню пришёл к провайдеру и секретарша никак не могла распечатать договор, комп всё вис. Я её спрашиваю, почему админа не позовёте, а она отвечает, что админа утром был, сказал на проце вентилятор сдох и всё нормально. И что? Комп ведь пишмашка...

mky ★★★★★
()
Ответ на: комментарий от mky

ну будет напрягать - поменять проблемную плашку. а пока работает и не создает беспокойства - why not?

и да, на АМ2+/АМ3 платформе с ддр2 памятью большинство плашек памяти сбоило раз в сутки в мемтесте, определенные (свои для каждой плашки) ячейки. что-то наверное со вторичными таймингами накрутили в агесе. где-то был массовый вой по этому поводу?

NiTr0 ★★★★★
()