LINUX.ORG.RU
ФорумAdmin

Проблема с HDD на сервере


0

2

Приветствую всех.

У меня случилось что-то непонятное. На одном из серверов замечено в логе /var/log/messages такая интересная вещь

Oct 30 18:09:59 srv5 kernel: megaswr[cfg]: SMART threshold exceeded on tgt=0x3

Oct 30 18:19:59 srv5 kernel: megaswr[cfg]: SMART threshold exceeded on tgt=0x3

Oct 30 18:29:59 srv5 kernel: megaswr[cfg]: SMART threshold exceeded on tgt=0x3

Oct 30 18:39:59 srv5 kernel: megaswr[cfg]: SMART threshold exceeded on tgt=0x3

Как видно - SMART долбит каждые 10 секунд. Подозрение на то, что что-то с винтами, но - как узнать именно с каким? там их 6 шт.

Конфигурация сервера такая: мать Intel S3200SH, fake RAID LSI (драйвер megaswr), CentOS 5.5



Последнее исправление: AlexeyVitebsk (всего исправлений: 1)
Ответ на: комментарий от vsemprivet

Да, это уже гуглил где-то. Вот что получается

[root@srv5 log]# smartctl -a smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/

ERROR: smartctl requires a device name as the final command-line argument.

Use smartctl -h to get a usage summary

Хочет чтобы указал устройство, указываю [root@srv5 log]# /usr/sbin/smartctl -a /dev/sdb smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/

Device: Intel MegaSR Version: 1.0

Terminate command early due to bad response to IEC mode page

A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

И так на каждый винт выдает.

AlexeyVitebsk
() автор топика
Ответ на: комментарий от AlexeyVitebsk

а при загрузке он не пишет в логи где-то кто из винтов у него таргет 3? можно погрепать на предмет тгт или убирать винчестеры по одному физически.

vsemprivet
()
Ответ на: комментарий от vsemprivet

Перегружаю смарт

/etc/init.d/smartd restart

вижу в messages

Oct 30 20:54:01 srv5 smartd[2971]: smartd received signal 15: Terminated

Oct 30 20:54:01 srv5 smartd[2971]: smartd is exiting (exit status 0)

Oct 30 20:54:01 srv5 smartd[24764]: smartd version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen

Oct 30 20:54:01 srv5 smartd[24764]: Home page is http://smartmontools.sourceforge.net/

Oct 30 20:54:01 srv5 smartd[24764]: Opened configuration file /etc/smartd.conf

Oct 30 20:54:01 srv5 smartd[24764]: Configuration file /etc/smartd.conf was parsed, found DEVICESCAN, scanning devices

Oct 30 20:54:01 srv5 smartd[24764]: Problem creating device name scan list

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sda, opened

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sda, Bad IEC (SMART) mode page, err=5, skip device

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sdb, opened

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sdb, Bad IEC (SMART) mode page, err=5, skip device

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sdc, opened

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sdc, Bad IEC (SMART) mode page, err=5, skip device

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sdd, opened

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sdd, Bad IEC (SMART) mode page, err=5, skip device

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sde, opened

Oct 30 20:54:01 srv5 smartd[24764]: Device: /dev/sde, Bad IEC (SMART) mode page, err=5, skip device Oct 30 20:54:01 srv5 smartd[24764]: Monitoring 0 ATA and 0 SCSI devices

Oct 30 20:54:01 srv5 smartd[24766]: smartd has fork()ed into background mode. New PID=24766.

Вот что происходит. По одному отключить не получится. Во-первых они в датацентре) Ну а во-вторых, это один из 2-х на данный момент контент серверов социальной сети. Отключать его - это недоступность почти 50% юзерского контента, а приостанавливать полностью проект - это не выход.

AlexeyVitebsk
() автор топика
Ответ на: комментарий от AlexeyVitebsk

Смартд говорит что диски не отвечают на АТА команды, само по себе это ничего не значит. Я бы посмотрел остальные логи на предмет сообщений от ядра/драйвера. Возможно кто организовывал подобное знает точно где искать какой из дисков таргет 3. Логически можно предположить что это /дев/сдц.

vsemprivet
()
Ответ на: комментарий от AlexeyVitebsk

Если бы это был аппаратный рейд, то ничего удивительного, нужно явно указать тип. Для недорейда - не знаю. Попробуй поиграться с параметром -d к smartctl

smartctl -d scsi -a /dev/sdb
smartctl -d ata -a /dev/sdb

и т.д., см. man smartctl

ЗЫ. Я бы ни за что не доверил данные недорейду. Лучше собрать софтовый, проблем меньше.

router ★★★★★
()
Ответ на: комментарий от router

Подошло только -d sat, и еще работает только с -T permissive

причем, например команда включения смарта

/usr/sbin/smartctl -s on -d sat -T permissive /dev/sdb

Проходит иногда не с первого раза, сначала бывает пишет это

SMART support is: Unavailable - Packet Interface Devices [this device: Reserved] don't support ATA SMART SMART support is: Ambiguous - ATA IDENTIFY DEVICE words 82-83 don't show if SMART supported. A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

если я повторю команду 2 и более раз, то проскакивает

SMART support is: Ambiguous - ATA IDENTIFY DEVICE words 82-83 don't show if SMART supported. Checking for SMART support by trying SMART ENABLE command. SMART ENABLE appeared to work! Continuing.

=== START OF ENABLE/DISABLE COMMANDS SECTION === SMART Enabled.

в messages появляется при этом такая запись

Oct 30 23:40:09 srv5 kernel: program smartctl is using a deprecated SCSI ioctl, please convert it to SG_IO

Предполагаю, что она появляется именно тогда, когда включение смарт вышеописанной командой наконец-то сработало.

Но через время, 2-10 минут все равно начинаются ошибки

Oct 30 23:09:59 srv5 kernel: megaswr[cfg]: SMART threshold exceeded on tgt=0x3

В общем - ничего не понятно.

AlexeyVitebsk
() автор топика
Ответ на: комментарий от AlexeyVitebsk

/usr/sbin/smartctl -d sat -T permissive -H /dev/sda - sde

все пробежал, иногда как я описывал выше, приходилось по 2-5 раз подряд одну и ту же команду давать до появления результатов. У всех дисков

=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

Странно. Что-то врет.

AlexeyVitebsk
() автор топика
Ответ на: комментарий от AlexeyVitebsk

что там за диски? пермиссив ничего хорошего не дает из-за того что диски не отвечают/не поддерживают комманду смарт. может сам недорейд и рубит ата команды.

фейкрейд через дмрейд работает? что говорит дмрейд -р?

vsemprivet
()

Судя по тому, что tgt=0x3, винт должен быть четвертым по порядку. Правда, не всегда бывает понятно, откуда считать :)

Дергай их по одному и смотри в «биосе» рейда, там все должно быть большими красными буквами написано. Он работает еще до старта системы, так что ничего ей не будет.

Кстати, небольшой оффтоп

fake RAID LSI (драйвер megaswr), CentOS 5.5


К центосу таки подходит рхеловский блоб для этого чуда?

nnz ★★★★
()
Ответ на: комментарий от nnz

>> фейкрейд через дмрейд работает? что говорит дмрейд -р?

нет, он работает через тот фейк-рейд, который на матери.

Дергай их по одному и смотри в «биосе» рейда, там все должно быть
большими красными буквами написано. Он работает еще до старта
системы, так что ничего ей не будет.

Да, видимо так и придется, эх, а так не хотелось останавливать сайт, но видимо придется. Закралась мысля поставить точно такой же новый сервер и аккуратно все потиху стащить на него, а уж после забрать тот домой и ковыряться. Только бы дожило все до того времени как деньги на очередной сервер появятся.

К центосу таки подходит рхеловский блоб для этого чуда?

ну так центос и есть рхел! Название их только различает. Все собрано из исходников РХЕЛ. Драйвер без проблем подхватывается при установке, а при очередном обновлении ядра - без проблем компилируется из исходников.

AlexeyVitebsk
() автор топика
Ответ на: комментарий от AlexeyVitebsk

>Закралась мысля поставить точно такой же новый сервер и аккуратно все потиху стащить на него, а уж после забрать тот домой и ковыряться.

С этого надо было начинать, по-хорошему. Ответственные сервисы нужно гонять _только_ на отказоустойчивых кластерах.

ну так центос и есть рхел! Название их только различает. Все собрано из исходников РХЕЛ.


Да я в курсе, не первый год чай админю.
Просто тут mky рассказывал, что некоторые блобы для рхела с центосом почему-то не работают. А для меня этот вопрос, в силу ряда причин, очень важен. Конкретно megaswr. Что ж, хорошая новость.

nnz ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.