Помирают диски? Контроллер?
Привет, ЛОР. Хочу почитать мнения и телепатию о моей железной проблеме с дисками.
У меня есть десктоп на Q670 и 12th Gen Intel Core i5, память не ECC. В этом десктопе на встроенном SATA контроллере висит пара энтерпрайз дисков intel 960GB, пара intel 1920GB. Диски парами были собраны в ZFS mirror.
В эту субботу я сначала получаю уведомление от smartctl о том, что у меня полезла вверх метрика End-to-End_Error_Count:
Device: /dev/sdd [SAT], FAILED SMART self-check. BACK UP DATA NOW!
Device: /dev/sdd [SAT], Failed SMART usage Attribute: 184 End-to-End_Error_Count.
Через полчасика я получаю уведомление от мониторинга о том, что у меня массив intel-1920 ушел в состояние DEGRADED, в zpool status вижу ошибки и в READ и в WRITE и в CKSUM.
В логах сервера в kern.log я наблюдаю вот такие ошибки лог1. Принимаю решение перезагрузиться, обновиться, разломать ZFS и пересобрать его заново. Собственно лог1 покрывает события от «собираем zfs mirror из чистых дисков» до «zfs destroy».
Ничего не меняется и я иду дальше – интереса ради я делаю mkfs.ext4 на каждом из этих дисков и нагружаю их тестами fio. В это время в лог2 падает несколько аналогичных ошибок во время создания ФС, но вот после их маунта и нескольких нагрузочных тестов в течение дня – ни одной ошибки диска, нет никаких проблем с записью на них или чтением с них.
Уже заказны новая плата, новые пара intel и новые хвостики SATA, однако пока это ко мне едет – хотелось бы как-то еще помучать систему. Помогите понять что это? Оба диска (которым и года нет) умерли в один день? Контакты на двух хвостах SATA окислились в один день? Предпосылки к отвалу контроллера? Магнитные бури и non-ECC память?
Какие еще тесткейсы можно придумать на живой удалённой системе, доступной по ssh, которая выведена из работы?