LINUX.ORG.RU

Проблемы с жестким диском SATA


1

1

Здравствуйте!

Уже пару месяцев время от времени наблюдаю такие сообщения на текстовую консоль и в syslog :

ata3: lost interrupt (Status 0x50)
ata3.00: exception Emask 0x50 SAct 0x0 SErr 0x48d0802 action 0xe frozen
ata3.00: SError: { RecovComm HostInt PHYRdyChg CommWake 10B8B LinkSeq DevExch }
ata3.00: failed command: READ DMA
ata3.00: cmd c8/00:08:8f:0a:ed/00:00:00:00:00/e0 tag 0 dma 4096 in
          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x54 (ATA bus error)
ata3.00: status: { DRDY }
ata3.00: hard resetting link

При этом комп подвисает, иногда наглухо, приходится ресетить. Естественно, в ext3 при этом появляются пробелмы, они лечатся fsck, который никаких бэдов на диске не находит.

Поиск в инете по названиям/кодам ошибок почти ничего не дал, нашел только, что дело может быть в SATA кабеле. Поменял сам кабель, воткнул в другой разьем на плате - все равно иногда появляется эта ботва, правда гораздо реже.

Что это может быть? Контроллер на материнке? На самом диске? Какие-то проблемы в ОС/драйверах, которые это провоцируют?

система Debian 6.0.3, ядро 2.6.32-5-686



Последнее исправление: a_konst (всего исправлений: 2)

Проверь кабельки, жельтенькие или красненькие. вдруг кто-то пытался их перерезать ну и быстренько переноси свою помойку на другой винт.

lyrix87
()
Ответ на: комментарий от lyrix87

В моем случае это как раз эти кабельки болтались, винт был в норме.

lyrix87
()
Ответ на: комментарий от lyrix87

Бери-ка кабелёчки только с металлич. зажимочками, чтобы не болталися.

lyrix87
()

Контроллер на материнке? На самом диске? Какие-то проблемы в ОС/драйверах, которые это провоцируют?

А вот все вышеперечисленное!

Контроллер на материнке может сдохнуть. Могут микротрещины на маме быть.

Контроллер на жестком дохнет - нефиг делать. Самый прикольный случай - был искровой контакт на разъеме питания диска. Вылечилось пайкой.

Проблемы в драйверах могут быть. И проверить можно только методом проб и ошибок с заменой либо гугленьем с версией ядра и версией контроллера.

sergv
()

fsck, который никаких бэдов на диске не находит.

fsck не ищет на дисках бэды (если не считать e2fsck с параметром -c).

Загляните в его SMART. Убедитесь в том, что шлейфы целы.

AITap ★★★★★
()
Ответ на: комментарий от sergv

Увы, гугление с версией ядра и номерами ошибок ничего не дало, с контроллером попробую.

Метод проб и ошибок это хорошо, но у меня нет под рукой другой материнки/другого компа, другой диск есть, но он IDE и еще более старый и подозрительный :)

Других поводов менять диск нет, места пока хватает, и не хочется выкидывать деньги просто так. Тогда уж проще надежнее сразу новый комп покупать и ставить на него ОС заново, перенося только данные.

a_konst
() автор топика
Ответ на: комментарий от AITap

Ага, попробую fsck -c , спасибо. smartctl никаких ошибок тоже не показал.

По времени появление этой гадости это примерно совпало с тем, что у упса внезапно сдохла батарея и он стал вырубать комп даже при коротком мигании света, но может это и ни при чем.

a_konst
() автор топика
Ответ на: комментарий от a_konst

По времени появление этой гадости это примерно совпало с тем, что у упса внезапно сдохла батарея и он стал вырубать комп даже при коротком мигании света, но может это и ни при чем.

Ещё как при чём. Проверь заодно напряжения, которые выдаёт БП. Через BIOS или через lm-sensors.

router ★★★★★
()
Ответ на: комментарий от a_konst

По времени появление этой гадости это примерно совпало с тем, что у упса внезапно сдохла батарея и он стал вырубать комп даже при коротком мигании света, но может это и ни при чем.

А может и причем. Мог броском напряжения вынести кондеи в БП или на маме. Вот сейчас оно и не стабилизирует ток толком. Напряжение с БП проверь!

Кстати, контроллер внешний и диск можно «на погонять» взять. Или вообще бросовые купить в комиссионке.

sergv
()
Ответ на: комментарий от sergv

Померял, на том шлейфе питания, на котором висит диск, мультиметр показывает 4.91 и 12.15 вольт . Правда, на этом же шлейфе висит еще IDE диск - так сложилось. Может быть, и БП стоит поменять.

a_konst
() автор топика
Ответ на: комментарий от router

Точно. Мне 4.81 приглючило. А это уже маловато малость при повышенном на 12В.

ТС. Ставь lm-sensors и смотри напряжения в динамике!

sergv
()
Ответ на: комментарий от sergv

Себя дополню: Под wmaker был классный док, который умел рисовать графики напруг. И это помогло диагностировать близкую смерть БП. (Под мою текущую крысу не искал еще - БП новый и в самрте свежая батарея).

sergv
()

ata3.00: hard resetting link

думал уже новый витн покупать, но выключил selinux и всё стало нормально.

не знаю где связь.

ukr_unix_user ★★★★
()
Ответ на: комментарий от ukr_unix_user

так видимо звёзды сложились , но пол дня продержался.

ukr_unix_user ★★★★
()
ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x400100 action 0x6 frozen
[  207.712543] ata1.00: irq_stat 0x08000000, interface fatal error
[  207.712549] ata1: SError: { UnrecovData Handshk }
[  207.712556] ata1.00: failed command: WRITE DMA
[  207.712567] ata1.00: cmd ca/00:40:b0:d8:11/00:00:00:00:00/e9 tag 0 dma 32768 out
[  207.712572] ata1.00: status: { DRDY }
[  207.712581] ata1: hard resetting link

а потом делает remount в ro.

ukr_unix_user ★★★★
()
Ответ на: комментарий от ukr_unix_user

у меня такое было при разболтаном разъеме на материнке.

лопнувший разъем сата кабеля тоже такое даст.

как и любое отрубание контроллера.

Slackware_user ★★★★★
()
Ответ на: комментарий от Slackware_user

он одно время грелся(пару лет назад), почистил, столо хорошо.

разъёмы с виду в порядке.

попробую вытащить и подключить винт через USB.

ukr_unix_user ★★★★
()
Ответ на: комментарий от ukr_unix_user

это не винт, поключил его к компу, загрузился с него. Всё работает отлично.

Видимо, нужно искать причину в другом месте.

ukr_unix_user ★★★★
()
Ответ на: комментарий от sergv

С lm-sensors трудно - комп загружаться снова перестал. Сейчас пишу с работы. Вечером попробую включить с другим БП, и заодно попробую этот винт подсоединить к ноуту через USB, посмотрим.

fsck.ext3 -c начал провоцировать (на стадии read-only проверки на беды) просто море похожих сообщений, но с другими кодами ошибок (скопировать их не удалось).

a_konst
() автор топика

Либо АТА контроллер пучит, либо винт пучит (может проблемы с питанием - завышенные пульсации винты не любят), либо - контакты.

По порядку по части трудозатрат/стоимости:

1) сменить шлейф, почистить контакты, переткнуть шлейф в другой сата порт

2) открутить от гермоблока плату (отвертка Т8), почистить контакты на плате от окислов

3) Сменить БП

4) Сменить мат. плату или поставить PCI-E SATA контроллер.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

замена БП и втыкание диска в другой комп (правда, через USB переходник) показало, что проблема в диске, i/o error сыпется массово. Может быть, в материнке тоже есть проблемы - но у меня сейчас не с чем проверить ее SATA контроллер. новый диск купил, попробую вечером.

a_konst
() автор топика
Ответ на: комментарий от anonymous

оно за power management отвечает. причем многоядерность?

Murg ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.