LINUX.ORG.RU

Насколько все же важна ECC-память

 


1

5

Сейчас на перепутье. Брать ли к Gigabyte Aorus x570 Elite + Ryzen 3900X еще и ECC память или нет.

Довод за - снижение вероятности ошибок.

Довод против - жалко денег. Плюс она медленнее.

Предыдущее что-то вроде обсуждения: Максимум ECC-памяти для X570

Пищи для размышления еще статья на хабре подкинула https://habr.com/ru/post/328370/

★★★★★

Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от anonymous

Не регистровая случайно?

Нет, точно такая же модель Crucial CT16G4WFD8266

Вставить можно много куда, но часто будет работать в не-ECC режиме.

Я имел ввиду даже проверить, а то я пока из нового получается, что первой память покупаю. Куплю, и ее даже не проверить сразу, разве что попробовать на работе воткнуть в офисные HP с Intel. lol.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Из задач - компиляции, виртуальные машины, обработка текстов, может иногда расчеты. Есть планы «поиграться» с тренировкой нейронных сеток.

Бери без ECC.

exst ★★★★
()
Ответ на: комментарий от praseodim

Есть планы «поиграться» с тренировкой нейронных сеток.

А без ecc не случится - «мне нужны твоя одежда и мотоцикл»? )

King_Carlo ★★★★★
()

Все на туже тему, хе-хе. Пока из боксберри можно не забирать заказанное, но сроки подходят и надо все решить.

Удивительно, но практически не возможно нагуглить какую-то толковую статистику.

Кое-что привели в этой теме, но блин хотя бы просто побольше инфы бы от сисадминов. Типа у меня 100 серверов 24/7, в логах за год было 50 исправленных ошибок и одна некорректируемая, сервер ребутнулся. Под NDA что ли это все? Или лень, хз.

Нашел вот статью, но там в итоге тоже на гугл ссылаются. Хотя еще и на IBM https://blog.grabcad.com/blog/2015/08/13/why-ecc-ram-matters/

В общем, еще в конце 90-х годов от IBM был отчет, что 1 бит изменяется на 256 Мб за месяц непрерывной работы. Это вообще-то очень много. С современными объемами памяти это значило бы, что 64Гб сбоят 256 раз в месяц или 8-9 раз на дню. Довольно очевидно, что это не так.

По гуглу же получается, что вероятность сбоев зависит от конкретных модулей. У них в том исследовании 2009-го года сбои наблюдались в течение 2.5 лет у 8% модулей DIMM по одной ошибке в год. У остальных модулей ее не было ни одной за все время. При этом у тех, где были, затем они встречались чаще и чаще и вплоть до выхода из строя.

Но тогда получается, что если память исправная в ECC почти нет смысла. Вероятность сбоев в памяти действительно меньше вероятности глюков иного рода, по крайней мере кроме действительно ситуаций очень длительных расчетов или серверного использования.

Еще бы все-таки найти статистику.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от King_Carlo

Как я понял, вероятность есть и с ECC. Кстати, не очень понятно, но почему-то ECC не защищает от атак типа raw hammer. Странно, там же меняется содержимое «параллельных» ячеек.

praseodim ★★★★★
() автор топика
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от lu4nik

Спасибо. 1-е - это то самое гугловское.

Церновское исследование тоже интересное. Из него следует, что ошибок, связанных с работой диска на порядок больше происходит, чем с памятью. Я бы даже сказал катастрофично много происходит, настолько что в первую очередь надо от них защищаться. Правда что-то вроде пофиксили исправленной прошивкой WD.

ECC они зафиксировали 44 срабатывания (3 некорректируемых) за 3 месяца на 1300 узлах. Хотя по спекам от производителя их должно было быть при их нагрузке 600 тысяч. То есть, по 5-6 в день на одном узле.

Почему так мало не выяснили. То ли реально мало, то ли не все фиксировалось в IPMI.

Получается, что если действительно так мало ECC срабатываний, то в ECC памяти для десктопа, даже с серьезными рабочими задачами нет смысла. Для кластеров с сотнями и тысячами узлов смысл есть, для одиночной машины - нет. Лучше лишний раз md5sum файлов вычислить и сверить.

Но смущают спеки производителей, о которых тут упомянули.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Мое мнение: если память с коррекцией ошибок стоит где-то на 10% дороже, такой же, но без коррекции, то можно брать даже в десктоп. Не из-за какой-то там безопасности, а из-за того, что в случае неисправности ее скорее всего можно бдует диагностировать без многочасовых тестов памяти.
А если разница 50%, как сейчас, то смысла никакого нет.

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

если память с коррекцией ошибок стоит где-то на 10% дороже, такой же, но без коррекции

Кроме цены скорость сильно разная.

King_Carlo ★★★★★
()
Ответ на: комментарий от Khnazile

Тут еще такой момент. Я нашел 64 Гб ECC за 24 тысячи. Но частота у нее 2666 МГц, а у non-ECC за 20 тысяч - частота 3200МГц. non-ECC за 2666 МГЦ уже где-то 16-17 тыс.руб.

Правда вроде ECC тоже можно погнать, не очень хорошо, но скорее всего до 3000МГц точно разгонится.

Так что такая альтернатива.

Не из-за какой-то там безопасности, а из-за того, что в случае неисправности ее скорее всего можно бдует диагностировать без многочасовых тестов памяти.

Кстати, да. Причем если не полениться настроить сбор статистики, то вообще вовремя заметить.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от King_Carlo

Почему? Я же пишу про такую же память, т.е. на той же частоте. Если память не регистровая, то разницы не будет.

Khnazile ★★★★★
()
Последнее исправление: Khnazile (всего исправлений: 1)
Ответ на: комментарий от praseodim

Церновское исследование тоже интересное. Из него следует, что ошибок, связанных с работой диска на порядок больше происходит, чем с памятью.

  1. April 2007

По крайней мере так было 13 лет назад.

gag ★★★★★
()
Ответ на: комментарий от praseodim

Но частота у нее 2666 МГц, а у non-ECC за 20 тысяч - частота 3200МГц.

Как выше подметили, важно узнать, какие именно чипы там установлены, действительно ли они специфицированы так, чтобы получилась заявленная частота плашки.

gag ★★★★★
()
Ответ на: комментарий от gag

Micron в обоих случаях, а уж точнее - хз.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от gag

По крайней мере так было 13 лет назад.

Угу. Возможно не так и много изменилось. Но даже тогда вопрос с ошибками не совсем прояснен, о чем прямо написано: то ли их так мало, то ли не все были отображены.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от gag

Да хз.

Чем больше читаю, тем больше впечатления, что ECC по факту это не столько от космических лучей, если конечно не в космос запускать комп или хотя бы в высокогорье, а банально чтобы вовремя заметить неисправность самих модулей памяти и чтобы они не испоганили работу.

Я так понял, что вероятность срабатываний ECC из-за проявившегося дефекта чипа памяти на порядки (даже намного порядков, хотя тоже вся статистика зыбкая какая-то) больше случайных ошибок из-за всяких излучений. Случайные ошибки же пренебрежимо редко происходят на десктопе.

То есть, если плашка выходит из строя она может начать действительно часто сыпать ошибками и такую память надо менять.

praseodim ★★★★★
() автор топика
Последнее исправление: praseodim (всего исправлений: 3)
Ответ на: комментарий от praseodim

Фейл не в том что бит флипнулся. А в том что весь этот тред про ненужные/недостаточные полумеры. У тех, кому реально «мишон критикал» флипанье битов – у них или серваки с резервированием всего, или кластеры с взаимоконтролем считающие одну задачу на нескольких нодах, голосующие за правильный результат «простым большинством», либо рабочие станции с серверным железом и полным фаршем. А эти все разговоры про сферическую ЕЦЦ в вакууме – психотерапия для бедных.

anonymous
()
Ответ на: комментарий от praseodim

Там ключевые слова в совете «не страдай херней».

anonymous
()
Ответ на: комментарий от anonymous

У тех, кому реально «мишон критикал» флипанье битов – у них или серваки с резервированием всего, или кластеры с взаимоконтролем считающие одну задачу на нескольких нодах, голосующие за правильный результат «простым большинством»,

Ты возможно путаешь наличие потребности и технической возможности.

Если потребности - это игры и может быть редактирование своих фото и видео, такой потребности конечно нет. В принципе, сейчас 99% тех, кто домой десктоп берет ничего другого и не делают на нем. Может еще по учебе что-то, если студенты.

С другой стороны, вникание в тему обнаружило такие подводные камни у вычислений на одиночном десктопе, что я кажется понимаю тех, кто для этой цели заводит только специальные рабочие станции. (где есть ecc и другие меры)

praseodim ★★★★★
() автор топика
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от praseodim

Еще бы все-таки найти статистику.

150 железных серверов, в основном HP.
За 15 лет админства, может быть, штук 10 планок заменили из-за превышения порога корректируемых ошибок памяти.

Тут следует учитывать, что у HP не обычный ECC, а «Advanced ECC» (а теперь уже и ADDDC в Gen10). Ошибки могут исправляться молча, особенно если там не Линукс. Винда похоже вообще забивает на исключения MCE (либо мы ее хреново мониторим).

Падение сервера из-за некорректируемых ошибок видел всего пару раз.

Тот пример из лога, что я приводил выше (больше 10 корректируемых ошибок за сутки) - это явно дефект модуля памяти. Потому что все эти ошибки попадали в 16 Кб диапазон. Т.к. HP отказалась менять этот модуль, я поступил просто - прописал этот 16 Кб диапазон в эксклюды в параметрах ядра, и все - больше за время жизни этого сервера ошибок не было.

bigbit ★★★★★
()
Ответ на: комментарий от bigbit

Спасибо.

В общем, хз. как всегда. Для серверов однозначно надо, но для десктопа как говорят, если можете взять, то берите, не можете и не надо.

praseodim ★★★★★
() автор топика

Может дурака свалял, но все же купил ECC-память.

Но как интересно, уже после наскочил на довольно важную информацию касательно ее поддержки в десктопных платах для AMD. Она как бы есть, но похоже, что логирование ошибок не возможно.

Один чел долго все это тестил и пытался вызвать ecc-коррекции и понаблюдать за логами. Метод был: разогнать до невозможности загрузиться и чуть откатиться, еще и вольтаж уменьшить нестабильности ради.

Но ни в винде и в линуксе ему не удавалось увидеть результат. Даже с помощью специальных фич в memtes86 платном. Оказывается, если это разрешено в BIOS, то можно производить инъекции ошибок и смотреть на реакцию.

Немного подзадолбал суппорт Asrock-а и получил в итоге такой ответ:

https://hardwarecanucks.com/forum/threads/ecc-memory-amds-ryzen-a-deep-dive-c...

However we got AMD official respond today

* AM4 support ECC function
* AM4 does not support ECC error reporting function

Here is the conclusion:
AM4 platform CPU (Ryzen 1000,2000,3000 series) can all support ECC correction, but not ECC report function

ECC с процами на AM4 поддерживается, но в логах вы ничего не увидите...

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Только непонятно, что они имеют ввиду под «ECC reporting» - логирование в IPMI/BMC-логе или доставку исключений MCE? Скорее всего, первое.

Вот тут тоже провоцировали ошибки разгоном - пишут, что MCE прилетает, EDAC ловит ошибки:

https://hardwarecanucks.com/cpu-motherboard/ecc-memory-amds-ryzen-deep-dive/5/

Единственное нарекание - некорректируемая ошибка не вызвала немедленный останов.

bigbit ★★★★★
()
Последнее исправление: bigbit (всего исправлений: 1)
Ответ на: комментарий от praseodim

Как минимум, на платах asus ECC reporting через MCE работает. Операционка видит ошибки, пишет их в лог. Чтобы машина остановила работу при Uncorrected Error нужно грузить ядро с параметром edac_mc_panic_on_ue=1, т.к. по дефолту это выключено.

Khnazile ★★★★★
()
28 июля 2020 г.
Ответ на: комментарий от anonymous

Планировали закончить в 2018-ом, но получилось только в 2020-ом. Кто-то уже покупал спецификацию JESD79-5 за 369 у.е.? В пресс-релизе/слайдах о точных изменениях с ECC можно только догадываться:

  • новинка on-die ECC будет решать новые проблемы, которые появляются в DDR5, и, похоже что, будет опциональна;
  • off-die ECC по-прежнему нужна и по-прежнему опциональна.
gag ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.