Паста из Хабры:
Подтвердилось существование проблемы, о которой многие догадывались.
Cisco объявили, что неназванный производитель памяти в течение пяти лет (с 2005 по 2010) поставлял им брак. Характер брака: оборудование с этой памятью может годами копить аптайм, не вызывая никаких нареканий к своей работе, но стоит перезагрузить его (по питанию или даже простым reload) — память перестает корректно работать, само устройство либо не загружается, либо загружается и периодически падает. Связано это с деградацией чипов памяти. По заявлению вендора, основные проблемы начинаются после двух лет эксплуатации.
Прежде чем в Cisco полетят тухлые помидоры, спешу предупредить: память стандартная, многие вендоры ее закупали, потому затронуто может быть великое множество единиц оборудования. Есть подтверждение об аналогичных проблемах у Juniper. Но только Cisco сознались, несмотря на неизбежный репутационный ущерб. Их финансовые потери из-за этой катастрофы составляют около 655 миллионов долларов.
Усаживаемся, достаем валидол и смотрим список затронутого оборудования.
Конкретные партнамберы и детальное описание симптомов можно прочитать в Field Notices или сразу по ссылкам.
Ссылки смотреть в статье на хабре
Модули ACE10, ACE20, and ACE30 FWSM ADM&AGM SAMI Разные HWIC, EHWIC, EVM, NME, SM модули Разные SPA Некоторые телефоны Некоторые кодеки ВКС ONS 15310 и 15454 ASR 1000 Маршрутизаторы 7200/7300 CRS Многое под 7600 и 6500 Маршрутизаторы серий 800, 1800, 2800 и 3800 ESR10k Сенсоры IPS-4240 и 4255 ASA 5505 и 5510-5550/ASA-SSM (модели 5500-X не упомянуты) MDS 9000 Catalyst Express 500 Nexus 7000 Catalyst 4500/4900 Catalyst 3k Catalyst 2k ME3400 и ME2400 MGX IE3000 AS5400XM и AS5350 UC520/540
Повторюсь, в зоне риска оборудование, произведенное 5-10 лет назад и до сих пор прекрасно работавшее, и выход из строя происходит именно при перезагрузке любым способом, а не при штатной работе.
Замена стандартная, по RMA, железки целиком или планки памяти, как только сломается. Судя по всему, бракованная память стоит далеко не в 100% упомянутого выше оборудования, а даже если в вашей железке именно она стоит — она может умереть не от сегодняшней перезагрузки, а через 10 лет.
Проверить по серийникам, кто в опасности, нельзя. Никак. Я пытался.
Коллеги. Думаю, на этом этапе все поняли, что много раз виденный мной подход «я когда-то купил за бешеные деньги один маршрутизатор Cisco, он годами работал и еще много лет прослужит, резерв не нужен» криминален. И даже горячий резерв уже может не помочь. Представьте себе, что в ЦОДе моргнул свет, и всё ваше сетевое оборудование сломалось и требует замены от самого факта кратковременного обесточивания и перезагрузки. Даже простая плановая ночная перезагрузка незарезервированной железки может обернуться судорожным поиском замены и длительным даунтаймом. Оценивайте риски, оформляйте сервисные контракты с быстрой доставкой, заранее находите или закупайте память на замену, меняйте само железо на более новое. Исходите из того, что после очередной перезагрузки любая железка из списка выше (и не только) может не подняться, планируйте пути отступления.
Источник: http://habrahabr.ru/post/216287/