LINUX.ORG.RU
ФорумAdmin

Supermicro X9DRW-IF

 


0

3

Добрый день, если кто подскажет буду Вам очень признателен. Сервер: Supermicro 825-7. Материнка: X9DRW-iF После установки новых процессоров E5-2695v2 (стояли E5-2609) плата не завелась. Точнее вентиляторы стартанули и на этом все. Дальше ни на ресет ни на кнопку питания не реагирует. Писков нет. Процессора греются. Визуально все проверил. Ничего. Вернул старые процессоры. Ситуация не изменилась. Я даже не знаю что спросить… В помойку? :(

P.S. Криворукостью не страдаю. Не один десяток компов через мои руки прошел.

Ответ на: комментарий от Zhbert

Могут еще потом спросить, почему тендер не объявили, а купленные процы повесить на автора, мол его инициатива, нехай он и платит.

Это действительно текущие реалии многострадальной? Инициатива наказуема, это понятно. Но всё реально настолько запущено?

bugfixer ★★★★★
()
Ответ на: комментарий от Zhbert

Я на последних двух заводах много знатного звездеца такого плана повидал, так что не от балды говорю.

Я не до конца понимаю как с таким подходом в принципе можно заставить кого-то хоть какие-то изменения внести в условную систему. Понятно что все прогнозируемые риски лучше озвучивать начальству заранее. Но тем не мение…

bugfixer ★★★★★
()

Плата могла накрыться ещё до смены процессора. Когда её пылесосили или термопасту заменяли, а это регламентные работы.

anonymous
()
Ответ на: комментарий от Dimez

Линк горит? IP получается?

Линка нет. Ни в одном из гнезд. Однако после проведения процедуры сброса CMOS изменяется поведение при включении. Появляются два стартовых писка вместо одного.

До сброса CMOS https://youtu.be/8nu130-ae3Y

После сброса CMOS https://youtu.be/RFGRDZ7ARSI

Остаётся попытаться восстановить. И в любом случае понять причину и извлечь из этого опыт.

Ну опыт уже не очень хороший. Вероятность к.з. от залетевшей пылинки практически нулевая. Во первых обычные пылинки не токопроводны, а необычные плохо летают. После съема процессоров я во первых внимательно осматривал гнездо. Во вторых никуда не отходил. И в третьих между съемом старого проца и установкой нового прошло менее минуты. Если придерживаться версии к.з. то самый реальный вариант это к.з внутри нового процессора. Может такое быть?

Начальство же одобрило модернизацию? Значит взяло риски на себя.

Увы, но это не правильная логическая конструкция. Риски я взял на себя. Говорить что я ничего не обещал и ничего не трогал это будет свинство с моей стороны. Мне как бы там ещё хочется работать.

micgelly
() автор топика
Ответ на: комментарий от micgelly

Линка нет. Ни в одном из гнезд.

У IPMI только один dedicated порт, там линк есть? Джампер JPB1 обратно вернул в Pins 1-2?

Появляются два стартовых писка вместо одного.

Судя по видео - просто два POST с выключением питания между ними.

После сброса CMOS

Надеюсь, процессоры старые стоят? Контроллер бы вынуть надо и диски отключить, чтобы не дрючить их тестовыми старт-стопами. Отключить максимально железо при проблеме - аксиома. У меня как-то сервер не похожим образом не стартовал из-за странно сгоревшего slim dvd.

Оставь 1 старый процессор в CPU1 и 1 память в P1-DIMM1, отключив диски (в т.ч. от питания) и контроллер.

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)

Не один десяток компов через мои руки прошел.

А серверов сколько прошло? :)

  1. Апгрейдить процессоры на таком старом железе - это очень смело. На него надо было «не дышать». При очередном включении/выключении оно могло просто не включиться после многолетнего аптайма.
  2. К руководству надо было приставать не с идеей замены процессора, а с тем, что железо древнее, дышит на ладан и может сломаться в любой момент -> нужно позаботиться о резерве или о замене.
  3. С Supermicro не доводилось работать, может последний пункт будет не к месту. Но для меня бы было недостаточно того, что материнка поддерживает процессор. Этот процессор должен быть указан в опциях к данной модели сервера и «биться» по матрице совместимости. Не к материнке, а именно к данной модели сервера. Может Supermicro никогда и не продавал эту модель с этими процессорами.
bigbit ★★★★★
()
Последнее исправление: bigbit (всего исправлений: 3)
Ответ на: комментарий от Dimez

У IPMI только один dedicated порт, там линк есть?

Нет. Тишина.

Джампер JPB1 обратно вернул в Pins 1-2?

Да.

Надеюсь, процессоры старые стоят?

Старые

Оставь 1 старый процессор в CPU1 и 1 память в P1-DIMM1, отключив диски (в т.ч. от питания) и контроллер.

Всё отключил. Появился линк на IPMI порту. Но IP нет.

С Supermicro не доводилось работать, может последний пункт будет не к месту. Но для меня бы было недостаточно того, что материнка поддерживает процессор. Этот процессор должен быть указан в опциях к данной модели сервера и «биться» по матрице совместимости. Не к материнке, а именно к данной модели сервера. Может Supermicro никогда и не продавал эту модель с этими процессорами.

Я начал подозревать, что у Supermicro не всё хорошо с поддержкой когда столкнулся с полным бардаком в прошивках.

micgelly
() автор топика
Ответ на: комментарий от micgelly

Появился линк на IPMI порту. Но IP нет.

А IPMI до этого на dhcp стоял или на статике? Джампер JPB1 не сбрасывает настройки IPMI.

Лучше вопрос задать поздно, но кроме BIOS ты IPMI тоже прошивал?

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Dimez

А IPMI до этого на dhcp стоял или на статике?

Там не понятная история была. После прошивки биоса на 3.0 в настройках IPMI нельзя было выставить статику. При попытке изенить DHCP на статику при уходе курсора с поля редактирования тут же возвращалось DHCP. Вопрос: «Что за нахрен задать некому было»

Может там какой-то IP вкорячился? Сканировать все диапазоны?

Джампер JPB1 не сбрасывает настройки IPMI

Так он же вроде не сбрасывает, а просто отключает IPMI. Или я не прав?

micgelly
() автор топика
Ответ на: комментарий от micgelly

Там не понятная история была. После прошивки биоса на 3.0 в настройках IPMI нельзя было выставить статику. При попытке изенить DHCP на статику при уходе курсора с поля редактирования тут же возвращалось DHCP.

А вот это хрень какая-то. Вопрос про прошивку IPMI ещё более актуальный теперь.

Так он же вроде не сбрасывает, а просто отключает IPMI. Или я не прав?

Именно так.

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Dimez

Лучше вопрос задать поздно, но кроме BIOS ты IPMI тоже прошивал?

Прошивал. Но!.. Из-за китайцев гладко прошивка не прошла. Не буду воспроизводить всю эпопею с перебором правильного прошивальщика и прошивки, но в итоге всё же версия 2.16 хотя последняя 2.59 но она вставать не хотела. SMM_X9_2.16.0.ima - этот встал SMM_X9_2_19.ima - зависал на процессе прошивки SMM_X9_2_59.ima - зависал на процессе прошивки

В итоге IPMI прошился. Но!… Он отказался принимать пароль через веб-интерфейс. Причем даже после сброса пароля через IPMICFG. Добраться до IPMI получилось только через IPMI View v2.9.32

micgelly
() автор топика
Ответ на: комментарий от Dimez

Только ни у кого материнки не вышли из строя при вставке обратно v1, иначе это бы написали большими красными буквами.

Ты точно все кондёры просмотрел? 10 лет - это срок для многих. Правда не для супермикро, но всякое бывает, да и статистика у меня сильно куцая по ним, всего-то один сервер 24 года, а остальные два меньше 10. И там, где 24, все кондёры у материнки перепаяны лет 5 назад. Так же вот раз, и не включилась. А вздувшиеся кондёры электролиты видно хорошо.

AS ★★★★★
()
Ответ на: комментарий от micgelly

Из-за китайцев гладко прошивка не прошла. Не буду воспроизводить всю эпопею с перебором правильного прошивальщика и прошивки, но в итоге всё же версия 2.16 хотя последняя 2.59 но она вставать не хотела. SMM_X9_2.16.0.ima - этот встал SMM_X9_2_19.ima - зависал на процессе прошивки SMM_X9_2_59.ima - зависал на процессе прошивки

Последняя 2.77. Прошивается через web-интерфейс, лучше в хроме (раньше были какие-то косяки в FF). Без сохранения настроек.

То, что у тебя IPMI то не шьётся, то не принимает пароль - либо ты накосячил при обновлении и не сбросил настройки вместе с полным AC Cycle, когда надо, либо железо сбойное. Ранние супермикры могли выйти из строя при обновлении IPMI. Мне как-то так плату по гарантии меняли, лет 10 назад (как раз X9DRW какую-то)

Он отказался принимать пароль через веб-интерфейс

Всегда надо IPMI прошивать со сбросом настроек (снимать галочку «preserve settings» или как она там), это в каждом архиве с IPMI прошивкой есть (хаха, кроме 2.77)

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 3)
Ответ на: комментарий от Dimez

Твою-ж мать!!! Нашел тонюсенькую металлическую стружку около процессора. Убрал. Плата завелась. Откуда она только там взялась?!!! Скорее всего лежала всё это время ждала меня… Мля… :(

Что дальше делать? Втыкать всё обратно или сначала разобраться с IPMI?

micgelly
() автор топика
Ответ на: комментарий от micgelly

Охренеть не встать. В сокете что ли?

Серверная мать довольно умная, но тем не менее после электрического замыкания, скажем так, я бы не рассматривал её как стабильный сервер, который долго проживёт.

Втыкать всё обратно или сначала разобраться с IPMI?

В хорошем варианте, конечно, желательно прогнать нагрузочные тесты (не сгорит ли), обновить прошивки и запустить всё с новыми процами и ещё раз нагрузочные тесты.

Но в твоём случае я не знаю, что посоветовать.

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от Dimez

Охренеть не встать. В сокете что ли?

Нет. Рядом с сокетом. Коротила между корпусом сокета и каким-то резистором. Тоньше волоса. Еле увидел.

Серверная мать довольно умная, но тем не менее после электрического замыкания, скажем так, я бы не рассматривал её как стабильный сервер, который долго проживёт.

Да, не. Есть два варианта короткого замыкания. Замыкание по силовому питанию и замыкание в виде изменения сопротивления цепи. первое как правило сопровождается красивыми визуальными эффектами и ведет к серьезному ремонту вплоть до помойки. Второе просто нарушает работоспособность схемы, но к необратимой деградации как правило не приводит.

micgelly
() автор топика
Ответ на: комментарий от Dimez

Всё подсоединил. Поставил новые процессоры. IPMI не завелся, но сервер стартанул и полностью загрузился. Теперь надо бы IPMI перепрошить, но у меня мандраж… :(

Вопрос к знатокам. Криво прошитым IPMI можно угробить BIOS?

micgelly
() автор топика
Ответ на: комментарий от einhander

Ну не совсем легким испугом…

Огромное спасибо Dimez. Я вчера уже смирился с убытками, но сегодня одно сообщение от него дало небольшую надежду и как оказалось проблема была решена.

Ещё раз огромное спасибо Dimez!

micgelly
() автор топика

Вероятность к.з. от залетевшей пылинки практически нулевая. Во первых обычные пылинки не токопроводны, а необычные плохо летают. После съема процессоров я во первых внимательно осматривал гнездо. Во вторых никуда не отходил.

Нашел тонюсенькую металлическую стружку около процессора.

Эхе-хе-хех. (

krasnh ★★★★
()
Последнее исправление: krasnh (всего исправлений: 1)
  1. у серверов(как и любого другого оборудования) есть такая фича: пока оно включено и работает - оно работает. Если его выключить, то оно может не включиться. Даже без смены процессоров или других комплектующих. Есть масса случаев, когда сервер работает, его выключают, а оно обратно уже не включается. Поэтому, есть поверье, что при техническом обслуживании - сервер надо выключить. Дать ему постоять 15 мин и опять включить. Чтобы знать, что оно перед тех. обслуживанием включается нахолодную. Иначе пыль продул - включаешь, а оно не включается. И начинаются мысли о том, что «я что-то повредил». А по факту - не из-за тех. обслуживания сервер сдох. Имей это ввиду

  2. смена комплектующих на сервере - всегда риск. Но тут есть два варианта: 1. твоя вина ввиду повреждения физического или технологического(всунул камень в неподдерживаемую mb) 2. не твоя вина - камень дохлый изначально и спалил mb. Твой был - 2 пункт. И плач ярославны от ответа к ответу - это розовые сопли

  3. классно, что оно закончилось позитивом. Опыт - в любом случае опыт. Всегда работая с оборудованием надо себя перестраховывать по максимуму

serg002 ★★★
()
Ответ на: комментарий от serg002

Я по образованию инженер. Закончил МИРЭА так что, про различные поверья это не ко мне ибо слишком много знаю. :)

Но есть пусковые токи. И чисто теоретически-гипотетически может на что-то повлиять. Например я вам точно могу сказать что чем меньше вы останавливаете HDD тем дольше он проживет. Проверено. У меня домашний комп 14 лет нонстоп и дискам (6 шт.) хоть бы что. пришлось правда сначала отучить их экономить электричество паркуясь. Так вот при старте пусковые токи раза в три превышают рабочие.

Теперь про пыль. Во первых её бы не пускать внутрь. Расскажу секрет. Не имея возможности содержать отдельную серверную с чистым воздухом мы сделали под сервер шкаф, а в нижней части вмонтировали лоток с несколькими банальными автомобильными воздушными фильтрами. В итоге получили защиту от пыли и как бонус отлично заглушили шум вентиляторов. А раньше вой стоял.

И ещё. Пыль продувать нельзя! Иначе натолкаете под микросхемы и вот там-то рано или поздно может и пробить. И даже не увидите где. Так что только пылесосить.

Про перестраховку по максимуму: «Береженого бог бережет» - сказала девушка натягивая презерватив на дилдо.

Но знаете это наверное всё же перебор…

То что история закончилась позитивно ещё раз подтверждает, что коллективный разум всё же иногда полезен.

micgelly
() автор топика
Ответ на: комментарий от micgelly

Я по образованию инженер. Закончил МИРЭА так что, про различные >поверья это не ко мне ибо слишком много знаю. :) Но есть пусковые токи

Тебе только что сказали, тоже самое, а ты мне начинаешь это разжевывать. Пусковые токи в три раза больше? ДА НЕУЖЕЛИ? Спасибо, что рассказал!

Пыль продувать нельзя! Иначе натолкаете под микросхемы и вот там-то рано или поздно может и пробить. И даже не увидите где. Так что только пылесосить

Да неужели? Все продувают и ничего

serg002 ★★★
()
Ответ на: комментарий от micgelly

И в принципе это правильно поскольку: Я не сертифицированный специалист по обслуживанию серверов.

А если бы вы были сертифицированным, то это конечно как-то очень сильно повлияло на результат :)

Я купил б.у. процессора на Авито.

ССЗБ

И самое главное, что это я проталкивал идею необходимости смены процессоров.

Знаю таких. Не в обиду вам, но знаю.

anc ★★★★★
()
Ответ на: комментарий от Dimez

Попытался перепрошить IPMI из под DOS. Прошивальщик (YAFUKcs v 2.5) не видит флешпамять Ругается следующими словами:

«Error in Getting FMH Info» «Error in FirmwareInfo» «Error in Getting FlashInfo»

Отгорела или шифруется?

micgelly
() автор топика