LINUX.ORG.RU
ФорумTalks

Масштабный брак сетевого оборудования Cisco и других вендоров

 , ,


0

3

Паста из Хабры:

Подтвердилось существование проблемы, о которой многие догадывались.

Cisco объявили, что неназванный производитель памяти в течение пяти лет (с 2005 по 2010) поставлял им брак. Характер брака: оборудование с этой памятью может годами копить аптайм, не вызывая никаких нареканий к своей работе, но стоит перезагрузить его (по питанию или даже простым reload) — память перестает корректно работать, само устройство либо не загружается, либо загружается и периодически падает. Связано это с деградацией чипов памяти. По заявлению вендора, основные проблемы начинаются после двух лет эксплуатации.

Прежде чем в Cisco полетят тухлые помидоры, спешу предупредить: память стандартная, многие вендоры ее закупали, потому затронуто может быть великое множество единиц оборудования. Есть подтверждение об аналогичных проблемах у Juniper. Но только Cisco сознались, несмотря на неизбежный репутационный ущерб. Их финансовые потери из-за этой катастрофы составляют около 655 миллионов долларов.

Усаживаемся, достаем валидол и смотрим список затронутого оборудования.

Конкретные партнамберы и детальное описание симптомов можно прочитать в Field Notices или сразу по ссылкам.

Ссылки смотреть в статье на хабре

    Модули ACE10, ACE20, and ACE30
    FWSM
    ADM&AGM
    SAMI
    Разные HWIC, EHWIC, EVM, NME, SM модули
    Разные SPA
    Некоторые телефоны
    Некоторые кодеки ВКС
    ONS 15310 и 15454
    ASR 1000
    Маршрутизаторы 7200/7300
    CRS
    Многое под 7600 и 6500
    Маршрутизаторы серий 800, 1800, 2800 и 3800
    ESR10k
    Сенсоры IPS-4240 и 4255
    ASA 5505 и 5510-5550/ASA-SSM (модели 5500-X не упомянуты)
    MDS 9000
    Catalyst Express 500
    Nexus 7000
    Catalyst 4500/4900
    Catalyst 3k
    Catalyst 2k
    ME3400 и ME2400
    MGX
    IE3000
    AS5400XM и AS5350
    UC520/540

Повторюсь, в зоне риска оборудование, произведенное 5-10 лет назад и до сих пор прекрасно работавшее, и выход из строя происходит именно при перезагрузке любым способом, а не при штатной работе.

Замена стандартная, по RMA, железки целиком или планки памяти, как только сломается. Судя по всему, бракованная память стоит далеко не в 100% упомянутого выше оборудования, а даже если в вашей железке именно она стоит — она может умереть не от сегодняшней перезагрузки, а через 10 лет.

Проверить по серийникам, кто в опасности, нельзя. Никак. Я пытался.

Коллеги. Думаю, на этом этапе все поняли, что много раз виденный мной подход «я когда-то купил за бешеные деньги один маршрутизатор Cisco, он годами работал и еще много лет прослужит, резерв не нужен» криминален. И даже горячий резерв уже может не помочь. Представьте себе, что в ЦОДе моргнул свет, и всё ваше сетевое оборудование сломалось и требует замены от самого факта кратковременного обесточивания и перезагрузки. Даже простая плановая ночная перезагрузка незарезервированной железки может обернуться судорожным поиском замены и длительным даунтаймом. Оценивайте риски, оформляйте сервисные контракты с быстрой доставкой, заранее находите или закупайте память на замену, меняйте само железо на более новое. Исходите из того, что после очередной перезагрузки любая железка из списка выше (и не только) может не подняться, планируйте пути отступления.

Источник: http://habrahabr.ru/post/216287/

белки_истерички.jpg

devl547 ★★★★★
()

Представьте себе, что в ЦОДе моргнул свет

ЦОД, где не обеспечивается питание при кратковременном отключении электричества? Представит конечно можно, но это дикость.

aedeph_ ★★
()

оформляйте сервисные контракты с быстрой доставкой

Бггг :)

cipher ★★★★★
()

но стоит перезагрузить его (по питанию или даже простым reload) — память перестает корректно работать, само устройство либо не загружается, либо загружается и периодически падает.

Что такого страшного в перезагрузке? Чем reload отличается от номинального режима? Почему сбойная память вообще работает?

i-rinat ★★★★★
()

(бурчит) чего только не придумают коварные янки, чтобы отвлечь внимание от известных событий

feofil
()

неназванный производитель памяти

Да срать я хотел на циску!
Кто этот производитель? Какие чипы подвержены проблеме?
Вот что важно, а не маркетинговый буллшит вроде «Оценивайте риски, оформляйте сервисные контракты»!

Stahl ★★☆
()

Уже поржали. Недавно там же хабре пролетала статья про веселый ребут 65хх цисок.

stave ★★★★★
()
Ответ на: комментарий от aedeph_

ЦОД, где не обеспечивается питание при кратковременном отключении электричества? Представит конечно можно, но это дикость.

На планете не так много датацентров которые не пережили бы хотя бы одной аварии. Поэтому те у кого есть деньги строят сразу два географически разнесённых ДЦ. Я видел такие проекты у европейских банков, например. Даже гугл рассказывал на google io 2011 что у них бывают серьёзные проблемы и они обесточивали ДЦ целиком.

Короче, глупо расчитывать что у ДЦ будет вечный аптайм.

true_admin ★★★★★
()

Партнамбер чипа памяти в студию, никому не интересны сотни быдлодевайсов с ним внутри.

ncrmnt ★★★★★
()
Ответ на: комментарий от true_admin

моргнул свет

аварии

Okay,

Поэтому те у кого есть деньги строят сразу два географически разнесённых ДЦ

Когда есть деньги, сначала строят TIER-3, а потом уже думают о географическом распределении дц.

Короче, глупо расчитывать что у ДЦ будет вечный аптайм.

Это очевидно, но никак не связано с морганием света.

aedeph_ ★★
()
Ответ на: комментарий от aedeph_

никак не связано с морганием света.

Свет внутри ЦОД может моргнуть по тыще причин. Для этого даже не обязательно чтобы были какие-то проблемы с электричеством снаружи.

true_admin ★★★★★
()

у меня планка hynyx сдохла в прошлом году. производителей памяти вроде и не так много.

YLoS ★★★
()
Ответ на: комментарий от true_admin

И ни одна из них не скажется на оборудовании.

aedeph_ ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.