LINUX.ORG.RU

Насколько все же важна ECC-память

 


1

5

Сейчас на перепутье. Брать ли к Gigabyte Aorus x570 Elite + Ryzen 3900X еще и ECC память или нет.

Довод за - снижение вероятности ошибок.

Довод против - жалко денег. Плюс она медленнее.

Предыдущее что-то вроде обсуждения: Максимум ECC-памяти для X570

Пищи для размышления еще статья на хабре подкинула https://habr.com/ru/post/328370/

★★★★★

Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от praseodim

Там отдельный лог ошибок в IPMI, независимый от всего. В случае неисправности он даже сам сказать может, что именно сломалось.

Khnazile ★★★★★
()
Ответ на: комментарий от praseodim

Пока что я никак не могу найти именно статистику срабатываний ECC.

Потому что эта статистика индивидуальна. Ты видел разброс значений в своей статистике с вики? Заметь, это в некоторой степени индивидуальная статистика.

(Ты, вроде, судя по сообщениям, связаный с наукой человек, но ведешь себя как гуманиарий).

Я тебе наменул, как пример - фен, как это зависит от температуры (p-n переход это капризная хрень: зависит от напряжения, температуры, от чего только не зависит!).

anonymous
()
Ответ на: комментарий от praseodim

Conclusion 3:The incidence of CEs increases with age,while the incidence of UEs decreases with age (due to re-placements)

Ну а теперь думай.

Подсказка, CE фикс бывает не только аппаратный и не бывает современных систем без восстановления как таковоых.

Внимательней эту доку читать надо, пролистав статью в вики по диагонали, в очередной раз понял, что читать вики ненужно

Morin ★★★★
()
Ответ на: комментарий от anonymous

(Ты, вроде, судя по сообщениям, связаный с наукой человек, но ведешь себя как гуманиарий).

Скорее интернет ведет себя как гуманитарий, вот и возникают привычки.

Но кстати, совсем оффтоп конечно, но есть «гуманитарии» и есть гуманитарии. Те которые настоящие ничуть не менее научны, чем в технических науках. Общее - что и техники и настоящие гуманитарии пользуются логикой, которая универсальна.

Я тебе наменул, как пример - фен, как это зависит от температуры (p-n переход это капризная хрень: зависит от напряжения, температуры, от чего только не зависит!).

Тут наверное вопрос и психологии еще. ECC как бы дает дополнительную уверенность в точности, возможно напрасную.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от darkenshvein

Сейчас я даже не знаю возникают ли они. По косвенным данным ясно, что если возникают, то очень редко.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

пользуются логикой, которая универсальна.

Логика не должна быть универсальна (если она объясняет всё - то это противоречивая логика). Логика должна быт непротиворечива.

Тут наверное вопрос и психологии еще.

ECC

Что для тебя «ecc» - cимвол веры или еще один инструмент?

anonymous
()

Что-то ECC память сильно подорожала. Еще летом разница между 16Гб 2666МГц планками ECC и обычной была 500рублей. А сейчас все две тысячи. А разница-то всего в том, что на обычной планке припаяно 16 микросхем, а на ECC - 18. Жесть какая-то. Или сейчас хайп на нее пошел?

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

Мне кажется аналогия в голову пришла. Она не совсем точная, но если хотеть купить, то можно и так оправдать

ECC-память - это как подушки безопасности в машине. Можно и без них и у большинства она совсем никогда не срабатывает даже. И даже не всегда, когда срабатывает, оно было нужно. Но бывают случаи, когда нужно.

И типа, если не гонщик, правил не нарушаешь, нужна ли подушка?

praseodim ★★★★★
() автор топика
Ответ на: комментарий от Khnazile

У меня есть подкожное чувство, что память вообще будет дорожать. Может начали с ECC просто. Ну просто сейчас какой-то минимум цены на память, non ECC 64 Гб можно за 20 тысяч собрать. И даже дешевле, если поискать и брать не 3200, а поменьше частоту. Такого никогда не было.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Что для тебя «ecc» - cимвол веры или еще один инструмент?

Перфекционизм, наверное. Вообще давно думал про ECC, но когда памяти у меня было 8-16Гб это казалось точно блажью. 64 Гб уже заставили всерьез подумать. Если бы собирал рабочую станцию с 256Гб точно взял бы, да другой в такие места наверное и не ставят. Но с 64Гб пока еще окончательно не решил.

praseodim ★★★★★
() автор топика
Последнее исправление: praseodim (всего исправлений: 2)
Ответ на: комментарий от praseodim

При разнице в цене в 1.5 раза это как раз тот случай, когда с тебя берут деньги ни за что.

Khnazile ★★★★★
()
Ответ на: комментарий от praseodim

всерьез подумать

Думать надо над реальными данными, а не над символами веры. Поэтому бери всё! И проверяй с феном, без фена, мемтестом или без. Никто ничего не навязывает, но бери всё!

anonymous
()
Ответ на: комментарий от praseodim

АМ2+/АМ3 процы были более требовательными к памяти. память, работавшая на АМ2 камне, после установки АМ2+ камня в ту же плату могла подглюкивать изредка.

NiTr0 ★★★★★
()

Насколько все же важна ECC-память

С выходом ddr5 этот вопрос потеряет актуальность, её без ecc просто не будет.

anonymous
()
Ответ на: комментарий от anonymous

С выходом ddr5 этот вопрос потеряет актуальность, её без ecc просто не будет.

Она сама будет проверять, или нужен «правильный» контроллер памяти? Если не будет проверять, то это выглядит насильное впихивание ненужных микросхем.

anonymous
()

вы хоть раз встречались в жизни с проблемами вызванными ошибками памяти?

Deleted
()
Ответ на: комментарий от praseodim

И типа, если не гонщик, правил не нарушаешь, нужна ли подушка?

Тут проблема в том, что ты не один на дороге.

gag ★★★★★
()
Ответ на: комментарий от Deleted

вы хоть раз встречались в жизни с проблемами вызванными ошибками памяти?

В 98-м году случайно, на мимолетном желании подсмотреть какую-то ерунду в своих старых исходниках - обнаружил ВСЕ свои полузабытые исходники заполненные нулями. И названия файлов на месте, и размеры на месте. А внутри, вместо букв тупо ноль на весь размер. Ни ошибок, ни сообщений, ни других необычных событий. Всё остальное рабочее. Только все [filename].asm вдруг оказались обнулены в прямом смысле. Конторская машина. Контора с пулеметчиками на входе. За пулеметчиками всего пара-тройка человек, знающих слова «исходный код» и никаких интернетов. Так никто и не смог разобраться, что это было. Ни разу больше не повторялось.

Это не про ECC, пожалуй. Так.. о бренности.. )

Toxo2 ★★★★
()
Ответ на: комментарий от anonymous

Наверно сама. На сайте jedec написано, что спецификация ещё в разработке, информации толком нет.

Hynix выпустили какие-то модули,

https://secure.diary.ru/userdir/3/4/6/8/3468342/86022152.jpg

Какой-то контроллер есть, и пара лишних микрух памяти.

anonymous
()

Автор, Вы нашли где заказать «Ryzen 9 Pro 3900» ? вроде бы только PRO версия поддерживает ECC RAM.

anonymous
()
Ответ на: комментарий от anonymous

Насколько я понял встретившиеся разъяснения, вообще все версии Ryzen от 1-х до 3-х, кроме некоторых с встроенной графикой, поддерживают ECC RAM. Но не на всех материнках. Но вроде на всех с x570.

Однако только для Pro гарантируется корректная работа, в смысле не для Pro не будут претензии принимать.

На практике значит можно брать.

Вроде как-то так или и тут наипалово?

Вот инфа https://www.reddit.com/r/Amd/comments/dw3p1l/confusion_about_am4_and_ecc/

ECC is not disabled. It works, but not validated for our consumer client platform.

Validated means run it through server/workstation grade testing. For the first Ryzen processors, focused on the prosumer/gaming market, this feature is enabled and working but not validated by AMD. You should not have issues creating a whitebox homelab or NAS with ECC memory enabled.

yes, if you enable ECC support in the BIOS so check with the MB feature list before you buy.

еще

ECC on Ryzen is supported. The functionality is guaranteed to be present on the processor, and if it doesn't work, it's a legitimate reason for an RMA.

If this wasn't the case, and Ryzen ECC was truly best-effort, motherboard vendors wouldn't build ECC support into the products, nor would they advertise motherboards with ECC support, as they could end up holding the bag if AMD decides to break the feature.

What AMD means when they say ECC isn't validated is that AM4 motherboard vendors aren't required to support it. More specifically, a motherboard vendor can make an AM4 motherboard without ECC support, claim that it's compatible with Ryzen, and not have to worry about getting a cease-and-desist notice from AMD's lawyers.

То есть, отсутствие валидации позволяет производителю материнки заявлять о поддержке, но без ECC

Но чего-то жаба меня снова стала склонять к просто нормальной памяти без ECC. Crucial Ballistix Sport с AES на конце (последняя буква - это цвет покраски), например BLS4K16G4D32AESE - вполне очень неплохой вроде все-таки выбор. Впрочем, по отзывам ECC Crucial CT16G4WFD8266 тоже до 3200 обычо без проблем гонится

praseodim ★★★★★
() автор топика
Последнее исправление: praseodim (всего исправлений: 6)
Ответ на: комментарий от praseodim

but not validated by AMD

ECC isn’t validated is that AM4 motherboard vendors aren’t required to support it.

Какое многозначительное «validated» у них. Ведь, первое звучало так, что они не тестировали ответственные за ECC транзисторы на безошибочное функционирование - и тогда получалась бы какая-то лотерея («ECC was truly best-effort»).

gag ★★★★★
()
Ответ на: комментарий от praseodim

Сообщения на форуме разнятся от 1-2 в квартал на сервере 24/7 до 1-го за пару дней. И даже чаще.

Разница может происходить просто из качества модулей, например если мне продадут модули на которых memtest за 10 часов или за сутки найдёт ошибку то я просто верну память в маназин по манибнку с вопросом ‘‘Что это вы мне продали?’’, в моём понимании это будет дефектная, бракованная память и рассказы про космические лучи я пойму не иначе как попытку уклонениея от приёма назад дефектного товара.

В общем читай отзывы на память в магазинах, форумах и обзорных статьях, по крайней мере не купишь общеизвестную халтуру, моё уверенное отнощение к ОЗУ обеспечивается в том числе и таким предварительным отбором, но конечно так же и стресс тестированием в течении 10 часов после покупки.

torvn77 ★★★★★
()
Последнее исправление: torvn77 (всего исправлений: 2)
Ответ на: комментарий от anonymous

(p-n переход это капризная хрень: зависит от напряжения, температуры, от чего только не зависит!).

Вот мы и к пользе от радиаторов пришли :))

torvn77 ★★★★★
()
Ответ на: комментарий от praseodim

ECC как бы дает дополнительную уверенность в точности, возможно напрасную.

По твоим словам при нужном тебе количестве ОЗУ разница в цене 8 т.р., при такой разнице я бы предпочёл взять дополнительную функциональность.

Но тут есть тот момент, что в ECC могут пихать дрековые чипы по принципу память относительно десктопа работает в глубоком довнгрейде, а те ошибки что появятся будут отловлены с помощью ECC.

torvn77 ★★★★★
()
Ответ на: комментарий от praseodim

Да, непонятно, что это утверждение означает точно, поэтому приходится просто догадываться. Имхо, по логике вещей, EDAC (Error detection and correction) дожен быть в модулях RAM, на линии связи RAM и CPU, и в самом CPU. ( https://en.wikipedia.org/wiki/ECC_memory )

Т.е. утвердение AMD может касаться линии связи с RAM и внутренностей самого CPU. Судя по всему, все CPU делаются по одному шаблону и схемы корекции присутствуют во всех CPU. В CPU проверки нужны там где данные хранятся и где данные передаются. Наибольшая вероятность возникновения сбоя в кэшах, у них большая площадь. Тесты правильности отработки EDAC должны включать все значения всех ячеек кэша и все возможные реакции на них. Имхо, это будет занимать в десятки раз больше времени, чем простые тесты на целостность кэшей. Поэтому, имхо, если они это и делают, то не для массового сектора, а под заказ. Т.е. купленный экземпляр может быть хорошим или плохим. А проверить схемы EDAC простому пользователю тупо нечем. Единственное, если уж при включении ECC проц начнёт тупо пороть данные. Но тут ECC память уже не поможет. Тогда остаётся использовать на свой страх и риск и надеяться, что попался хороший экземпляр.

С другой стороны, ECC штука очень полезная. Мне давно уже попадались вот какие данные. Ранее, когда транзисторы в микросхемах были большие, корпусировку делали в керамику. А керамика сама по себе является источником альфа излучения с малой интенсивностью (по некоторым оценкам вероятность 10E-5). Да, альфа излучение можно экранировать чуть ли не листом бумаги, но всё равно не со 100% гарантией. Поэтому позднее, когда тех.процесс утончился, это стало проблемой и корпусировку стали делать на органику и в металл.

Поэтому источником сбоев служит не только космос, но и банально вся окружающая обстановка. Смех смехом, но те люди, что ставят глиняные кружки с чаем или глиняные горшки с кактусами рядом с системным блоком, увеличивают вероятность сбоя RAM и кэшей.

В общем, тоже рассматриваю вариант использования ECC RAM. Спасибо за поднятый вопрос и полезные линки.

anonymous
()
Ответ на: комментарий от Toxo2

Так никто и не смог разобраться, что это было. Ни разу больше не повторялось.

Встречался с таким, это ошибка ФС, правда какая не знаю.

torvn77 ★★★★★
()
Ответ на: комментарий от praseodim

Ну чипы при тестировании которых в штатных режимах выявляется дефект ячеек или склонные к ошибкам при продолжительной работе, может для сервера с ECC это и ничего, но у десктопщиков такое считается либо браком либо если это у старого ОЗУ то признаком технического износа, такое нечестные люди обычно стараются побыстрее продать пока модуль не испортился совсем.

torvn77 ★★★★★
()
Последнее исправление: torvn77 (всего исправлений: 1)

из любопытства смотрел ошибки на 10 серверах с 256Гб памяти стоящих в дц, половина из них имеет аптайм 500+ дней, на 9 не оказалось ни одной ошибки даже скорректированной, на 10м оказалось стоит не ECC память :facepalm:

anonymous
()
Ответ на: комментарий от anonymous

не оказалось ни одной ошибки даже скорректированной

Это не значит, что их не было.
Ибо это сильно зависит от железа. У HP например, часть ошибок исправляется молча, и ничего ни в какие логи не пишется. Много раз видел в логах iLO сообщение, что превышен порог корректируемых ошибок для определенного DIMM'а, после чего поддержка HP меняла этот модуль. А вот сообщений об одиночных ошибках при этом не было.

Или вот другая крайность. Информация о корректируемых ошибках дошла до ОС, и ядро даже перевело сответвующую страницу памяти в оффлайн(!):

Hardware event. This is not a software error.
MCE 0
CPU 14 BANK 5
MISC 204214f486 ADDR 1011ebee40
TIME 1479719707 Mon Nov 21 09:15:07 2016
MCG status:
MCi status:
Error overflow
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNEL1_ERR
Transaction: Memory read error
STATUS cc00020000010091 MCGSTATUS 0
MCGCAP 1000814 APICID 2c SOCKETID 1
CPUID Vendor Intel Family 6 Model 45
Corrected memory errors on page 1011ebe000 exceed threshold 10 in 24h: 10 in 24h
Location SOCKET:1 CHANNEL:1 DIMM:? []
Offlining page 1011ebe000

При этом техподдержка HP отказалась менять этот модуль, т.к. в логах iLO, видите ли, ничего не было. У них даже есть статья в knowledge-базе - выключить на сервере всякие EDAC и MCE, и доверять встроенным средствам их серверов (независимым от ОС).

bigbit ★★★★★
()
Последнее исправление: bigbit (всего исправлений: 1)
Ответ на: комментарий от anonymous

на 10м оказалось стоит не ECC память :facepalm:

Вот не нём статистика (100 ошибок за час) и отыгрывается, но ты это не узнаешь. Бери всё!

anonymous
()
Ответ на: комментарий от Toxo2

по идее там должен быть мусор, а не ноль? возможно, бухие пулеметчики полезли баловаться с компьюхтером

moot ★★★★
()
Последнее исправление: moot (всего исправлений: 1)
Ответ на: комментарий от bigbit

У них даже есть статья в knowledge-базе - выключить на сервере всякие EDAC и MCE, и доверять встроенным средствам их серверов (независимым от ОС).

И вообще, где это видано, чтобы было открытое железо с открытыми спецификациями. Всё только через блоб и после получения визы на пользование этим блобом.

anonymous
()
Ответ на: комментарий от Toxo2

Ни ошибок, ни сообщений, ни других необычных событий. Всё остальное рабочее. Только все [filename].asm вдруг оказались обнулены в прямом смысле. Конторская машина.

Вспомнил, что с чем-то подобным уже сталкивался тоже. Давай попробую угадать? Там была Windows 95 или 98?

Дело в том, что у них есть какой-то прикол с размером буферов или кэшей (системных) под операции с файлами.

Суть в том, что на работе примерно еще в 2000-2001-м столкнулись с тем, что при копировании больших объемов информации в большом количестве файлов за виндой 95-й надо проверять результат. Сейчас точно не помню, но даже вели подсчет, что примерно, емнип после 5-10Гб (тогда это много было) файлы пишутся, но внутри нули или мусор. От компа не зависело. Win NT не было, под свежей Win2K не работали нужные драйверы и программы.

Я тогда еще написал программку, которая проверяла получавшиеся файлы на битость. Без контрольных сумм, просто формат и его структуру эмпирически проверял. Работала очень быстро и как правило отлавливала ошибки, хотя в очень редких случаях пропускала формально корректные, но с удивительными глюками в результате сбоев. На них забили и из-за редкости и потому что глюки соседствовали с забитыми нулями файлами и меняли тогда весь блок, где нашли.

Сейчас вспоминаю и кажется, что на таком глюкодроме вообще нельзя было ничего делать в принципе. Но тем не менее так тогда и оцифровали архив документов одной не самой маленькой компании.

praseodim ★★★★★
() автор топика
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от bigbit

Сегодня с знакомым админом пересекся, правда тот виндовс-админ, спросил его про ECC.

Ответ был примерно таким:

Не страдай херней, ты что высоконагруженными ответственными вычислениями сутками напролет занимаешься или около ядеpного реактора живешь? Нет? А для твоих компиляций и прочего баловства выше крыши хватит и просто приличной памяти. Купи ее, оставь на ночь мемтест, поменяй если ошибки будут и успокойся.

Кхм, даже не знаю, что теперь думать.

Правда он еще ryzen не советовал брать, типа он может и быстрее Intel даже, но с intel проблем точно меньше будет. Советовал 9700k брать вместо ryzen 3700x Но тут как-то трудно согласиться. Интеловская платформа сейчас - тупик, по-моему.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Я и запомнил так крепко год просто потому, что я только-только в ту контору работать перешел. А исходники были с предыдущей работы, которая вообще никак не пересекалась с новой по тематике. Принёс для себя на всякий пожарный. Самому у себя списывать, если вдруг что-то похожее попадётся.

Можете представить как передрейфил? )

Много позже выяснилось, что никому там нафиг не интересно было специально следить за какими-то, к чертям, исходниками. Там следят только за официальными документами с официальными грифами.
Это точно чисто технический сбой был.

Технически - да, очень похоже на то, что вы описываете. Очень вероятно, но эти детали не запомнились так ярко, как эмоции )

Toxo2 ★★★★
()
Ответ на: комментарий от praseodim

тогда тебе не нужна ecc-память.
да, я тоже гуглил, тоже хотелось узнать о какой то линуксовой фиче, для кешей/фс.... но особо не нашёл.
кстати, для zfs типа полезна ецц-память.

darkenshvein ★★★★★
()
Ответ на: комментарий от darkenshvein

тогда тебе не нужна ecc-память.

Это на 16Гб, причем DDR-1333 без разгона. Почему подумал про ECC, потому что планируется 64Гб и совсем новая система. Но может и в самом деле нефиг ерундой заниматься и лишние деньги лучше потратить на M.2 повместительнее или проц побыстрее или просто банки с икрой купить =)

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Интеловская платформа сейчас - тупик, по-моему.

Надо просто подождать© LGA1700, там-то точно будет нормально!

anonymous
()
Ответ на: комментарий от praseodim

В домашний комп я бы себе тоже без ECC взял. Но у меня обычный десктоп, выключаю на ночь, никаких mission-critical задач и близко нет.

bigbit ★★★★★
()
Ответ на: комментарий от praseodim

По поводу ошибок в ОЗУ:
Я вчера из urandom на tmpfs сделал файл test.bin размером 10.4Гб. Поситал и сохранил sha512 и торрент файл, сейчас я это всё проверил, всё осталось без изменений.

Сделал я этот файлик вчера в два часа ночи, проверил сегодня в пять, значит вот информация без изменений пролежала у меня в ОЗУ более одних суток.

torvn77 ★★★★★
()
Ответ на: комментарий от anonymous

Судя по всему, все CPU делаются по одному шаблону и схемы корекции присутствуют во всех CPU.

Точно, КП у всех (в рамках линейки) одинаковый, а режим работы инициализируется прошивкой на матери. У интеля так же. Лет пять назад камрад из интеля это «по секрету» сообщил.

targitaj ★★★★★
()
Ответ на: комментарий от praseodim

Сразу понятно — не шарит!

Таких советчиков не стоит слушать

Тут надо быть слепым чтобы не увидеть, где на самом деле потенциал!

Лучше пожалуйся на него начальству, что играет в игры на работе (ну очевидно же что играет), и что берёт откаты от Интела (ну а какие тут могут быть сомнения?)

anonymous
()

Ерундой ты маешься, есс нужна на серверах, где по 2-3 года сервер не перезагружают. Для дома она не сдалась, ни разу у меня за 5 лет не было сбоя в оперативе на 3 десктопах, во время работы. При этом комп регулярно выключаю на обед/ужин и прочие походы в магаз, стартует за 6 сек, засекал, до логина в ОС, так что на десктопе лучше хороший SSD и быстрая RAM (DDR4/5), ну и быстрый на ядро проц, это тоже заметно при работе, быстрота/эффективность одного ядра

menangen ★★★★★
()
Ответ на: комментарий от menangen

Для дома она не сдалась, ни разу у меня за 5 лет не было сбоя в оперативе на 3 десктопах, во время работы.

У меня тоже =) Но я могу об этом и не знать. Или это по логам?

Кхм. я тут уже почти отказался брать ecc и вдруг нашел вариант на 3 т.руб. дешевле. Получается разница вообще в 5000 между 20 и 25.

Вообще дело в том, что на десктопах обычно ничего такого не делают, чтобы переживать из-за ошибок. Если даже где-то что-то сглюкнет лишний раз, оно будет списано на обычное поведение винды/линукса/железа etc.

Собственно, кроме цены минус в том, что память медленее и ее мало куда вставишь.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

дешевле

Не регистровая случайно?

мало куда вставишь

Вставить можно много куда, но часто будет работать в не-ECC режиме.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.