LINUX.ORG.RU

Память сдохла?

 


0

3

Загрузился сейчас, смотрю dmesg:

[    3.915943] mce: [Hardware Error]: Machine check events logged
[    3.918944] mce: [Hardware Error]: Machine check events logged
[    3.999442] mce: CMCI storm detected: switching to poll mode
[    8.970973] RAS: Soft-offlining pfn: 0x117fc2
[    8.972127] Memory failure: 0x117fc2: unhandlable page.
[   16.971009] RAS: Soft-offlining pfn: 0x85fa60
[   16.971028] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[   16.971033] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc1d74c000010092
[   16.971043] EDAC sbridge MC0: TSC 0 
[   16.971046] EDAC sbridge MC0: ADDR 85fa60d00 
[   16.971050] EDAC sbridge MC0: MISC 2150189886 
[   16.971053] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1700322770 SOCKET 0 APIC 0
[   16.971085] EDAC MC0: 30163 CE memory read error on CPU_SrcID#0_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x85fa60 offset:0xd00 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0092 socket:0 ha:0 channel_mask:1 rank:0 )
[   16.976975] Memory failure: 0x85fa60: unhandlable page.
[   17.960361] rfkill: input handler disabled
[   25.994993] RAS: Soft-offlining pfn: 0x100c18
[   25.995010] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[   25.995013] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc10920000010092
[   25.995018] EDAC sbridge MC0: TSC 0 
[   25.995020] EDAC sbridge MC0: ADDR 100c18340 
[   25.995023] EDAC sbridge MC0: MISC 21405c5c86 
[   25.995025] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1700322779 SOCKET 0 APIC 0
[   25.995049] EDAC MC0: 16968 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#0 (channel:1 slot:0 page:0x100c18 offset:0x340 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0092 socket:0 ha:0 channel_mask:2 rank:1 )
[   25.996229] Memory failure: 0x100c18: unhandlable page.
[   32.971011] RAS: Soft-offlining pfn: 0x117fc2
[   32.971028] EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
[   32.971031] EDAC sbridge MC0: CPU 0: Machine Check Event: 0 Bank 7: cc1f98c000010092
[   32.971037] EDAC sbridge MC0: TSC 0 
[   32.971040] EDAC sbridge MC0: ADDR 117fc2d40 
[   32.971043] EDAC sbridge MC0: MISC 2140383886 
[   32.971045] EDAC sbridge MC0: PROCESSOR 0:306e4 TIME 1700322786 SOCKET 0 APIC 0
[   32.971076] EDAC MC0: 32355 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#0 (channel:1 slot:0 page:0x117fc2 offset:0xd40 grain:32 syndrome:0x0 -  OVERFLOW area:DRAM err_code:0001:0092 socket:0 ha:0 channel_mask:2 rank:0 )
[   32.973768] Memory failure: 0x117fc2: unhandlable page.
[  335.946974] mce: CMCI storm subsided: switching to interrupt mode
В mcelog такое:
Memory errors
SOCKET 0 CHANNEL any DIMM any
corrected memory errors:
	404445 total
	404445 in 24h
uncorrected memory errors:
	0 total
	0 in 24h

SOCKET 0 CHANNEL 2 DIMM any
corrected memory errors:
	4 total
	4 in 24h
uncorrected memory errors:
	0 total
	0 in 24h

SOCKET 0 CHANNEL 2 DIMM 0
corrected memory errors:
	61 total
	61 in 24h
uncorrected memory errors:
	0 total
	0 in 24h
Per page corrected memory statistics:
100c18000: total 1 seen "1 in 24h" online

117fc2000: total 2 seen "2 in 24h" online

85fa60000: total 1 seen "1 in 24h" online

Через минут 10 работы компьютер перестаёт реагировать на ввод, последний кадр остаётся на экране, полсекунды выводимого звука постоянно повторяются, светодиоды клавиатуры не переключаются. Единственный способ восстановить работоспособность — перезагрузка по питанию, после этого история повторяется.
Память DDR3 регистровая ECC.

★★★★★
Ответ на: комментарий от CYB3R

Может протереть контакты надо, плохой полуокисленный контакт и где то рядом вибрация периодическая =) Это конечно на правах надмозга, но всё равно перебирая планки попутно пошлифуй спиртиком контактные площадки, хуже не будет. Я так память на ноуте вылечил, крайний контакт был запачкан термопастой и порой от переноса с место на место всё висло наглухо. Раза три собирал всё разбирал всё нормально, и лишь потом увидел засохшую «козявку».

LINUX-ORG-RU ★★★★★
()
Ответ на: комментарий от CYB3R

DDR3 - значит не совсем ноавя железка.

Если там есть электролитические конденсаторы, то на них нужно оочень внимательно посмотреть на предмет подтёков и вздутия.

А еще память и процессор питается от БП. Есть уверенность, что БП нормально держит нагрузку?

vel ★★★★★
()
Ответ на: комментарий от vel

Да, железка не новая, использовалась активно в своё время. Конденсаторы буду смотреть. В БП я уверен, а вот мать буду внимательно изучать.

CYB3R ★★★★★
() автор топика
Ответ на: комментарий от vel

Деградация чипов это из области поголовных отвалов.

Почему-то во времена третьих пней (и амуде с голым ядром) поголовных отвалов не было, хотя упаковка кристалла у них такая же, как у современных чипов видеокарт. И чип на подложку именно что припаян шарами. Да и карты в общем-то тоже тогда были с FCBGA, где не только чип к подложке, но и подложка к плате карты тоже припаяна на шарах.

Но вот отвалов почему-то не было до того, как во второй половине нулевых расплодились ютуб блохеры эксперты по железу, живущие конечно же исключительно на деньги с гугл адсенс. Которым конечно же никто не заносит деньги за пропихивание ненавязчивой повесточки, что нужно покупать исключительно новую видеокарту по оверпрайсу.

Хотя настоящим цирком было конечно же переобувание на лету с выходом каждой новой серии срюзенов, когда в предыдущей совершенно ВНЕЗАПНО обнаруживались проблемы со статтерами и с фабриком. Но ЦА с памятью как у золотой рыбки конечно же все схавала и не подавилась.

harbinger
()
Последнее исправление: harbinger (всего исправлений: 2)
Ответ на: комментарий от harbinger

бОльшая часть глюков с которыми приходилось сталкиваться - это проблемы с питанием в виде вздувшиеся/подтёкших кондесаторов.

На матери их хотя бы видно в отличии от БП.

С отвалами чипов в гарантийные сроки не сталкивался.

Чинить оборудование 10-летней давности обычно бессмысленно.

vel ★★★★★
()
Ответ на: комментарий от vel

Конденсаторы массово вздувались из-за того, что китайцы криво сперли у японцев состав электролита.

Этот случай вообще считается одним из каноничных примеров эпикфейла в промышленном шпионаже.

Сейчас проблем нет (то ли патент на состав истек, то ли наконец смогли украсть нормально).

harbinger
()
Ответ на: комментарий от harbinger

Ну да, это всё проплаченные блохеры, а nvidia с amd конца нулевых на прогрев не велись. Хотя амдшеый хлам года до 11 вёлся, наверное, все эти легендарные RS880m

shalom_ ★★
()
Последнее исправление: shalom_ (всего исправлений: 1)
Ответ на: комментарий от rtxtxtrx

То скорее единичные случаи всё же

Какие-то греются, какие-то нет. Тут важно повторяемость результата, и , допустим, про 8ххх-9ххх нвидиа там сказать можно, а про 6хх нельзя, хотя бывает что на прогрев ведутся.

shalom_ ★★
()
Ответ на: комментарий от cobold

Про третьи пни там написано, если че. Рядом с упоминанием про такие же атлоны. Но пока писал - вспомнил что на тогдашних картах времен ноувидия фх/ати 9xxx были такие же чипы как на современных (fcbga), кроме как на бюджетках.

Ну и для нефонатов, могу напомнить видосы, где снимают кулер с 3-4 пня и голого амуде. А шанс обколоть ядро был +- одинаковый, угу. С поправкой на то, что обычно кулеры под амуде весили больше и крепление было более тугим, но их же часто ставили и на сокет 370, ибо совместимо.

harbinger
()
Последнее исправление: harbinger (всего исправлений: 3)
Ответ на: комментарий от rtxtxtrx

Не особо они грелись в 2003-2006, учитывая что тогда СО была символической.

Греться они начали где-то с HD2600.

А так-то можно доколупаться, что и вторая вуда грелась, без охлаждения, лол. Хотя некоторые производители ставили радиаторы.

А без охлада там температура в тяжелых играх в SLI (когда две карты рядом в слотах) могла быть под 90.

harbinger
()
Последнее исправление: harbinger (всего исправлений: 1)
Ответ на: комментарий от rtxtxtrx

У меня был 9600. Сдох он только после того, как остановился кулер и это не было замечено в течении нескольких дней.

Сомневаюсь, что это рядовая ситуация, которая случается сплошь и рядом.

harbinger
()
Ответ на: комментарий от shalom_

Не знаю я че там с 880m.

Знаю что в маках 2011 и 2012 года амуде и ноувидия отваливались абсолютно одинаково. Потому что охлад проектировал ушлепок, и на 50W проц + 50W видяху его откровенно мало.

В принципе, если не нужен внешний монитор, там можно просто сдуть видеочип и накидать проводочками соплей со встройки на выход матрицы. Я своим так и пользовался, ибо 3к (точнее uwqhd) моник он поднимал только на 30гц, это смерть глазам.

То есть, чтобы работать с ноутбуком как с ноутбуком, в принципе этот видеочип не нужен. Но нужна операция по обходу переключалки встроенного/внешнего видео, которая на том поколении маков работает на отдельном чипе. Иначе изображения не будет, даже несмотря на то, что встройка исправна, и отваленная внешняя видяха для старта самой макоси не нужна.

Но да, речь как бы шла за десктопное железо, где с охладом все нормально.

harbinger
()
Последнее исправление: harbinger (всего исправлений: 4)
Ответ на: комментарий от harbinger

Там плату проектироал ушлёпок, амуде те 1005-ые тоже говном были, конечно, но нвидии были уже весьма живучими. Там это поделие тупо расслаивается, и рвутся контакты между видаком и памятью. К чести Apple, они эти говноплаты меняли по гарантии лет 7, наверное, признав свой косяк

shalom_ ★★
()