LINUX.ORG.RU

Непонятный баг с HDD


0

0

Минут двадцать назад вдруг случился фриз всего GUI. Через несколько секунд систему отпустило, а в терминале нарисовалось:

Message from syslogd@persephone at Sep 13 10:06:26 ...
 kernel:[  497.269977]          res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)

Message from syslogd@persephone at Sep 13 10:06:26 ...
 kernel:[  497.269986]          res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)

dmesg:

[  497.269947] ata1.00: exception Emask 0x0 SAct 0x12 SErr 0x0 action 0x6 frozen
[  497.269975] ata1.00: cmd 61/10:08:ac:5d:53/00:00:17:00:00/40 tag 1 ncq 8192 out
[  497.269977]          res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[  497.269980] ata1.00: status: { DRDY }
[  497.269984] ata1.00: cmd 61/10:20:6c:44:2f/00:00:11:00:00/40 tag 4 ncq 8192 out
[  497.269986]          res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[  497.269988] ata1.00: status: { DRDY }
[  497.269994] ata1: hard resetting link
[  497.753887] ata1: softreset failed (device not ready)
[  497.753890] ata1: failed due to HW bug, retry pmp=0
[  497.917746] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[  497.918811] ata1.00: SB600 AHCI: limiting to 255 sectors per cmd
[  497.920022] ata1.00: SB600 AHCI: limiting to 255 sectors per cmd
[  497.920025] ata1.00: configured for UDMA/133
[  497.920040] ata1: EH complete
[  497.926362] sd 0:0:0:0: [sda] 976773168 512-byte hardware sectors (500108 MB)
[  497.926363] sd 0:0:0:0: [sda] Write Protect is off
[  497.926363] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
[  497.966356] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
┌[~]
└> cat /etc/debian_version 
5.0.5
┌[~]
└> uname -a
Linux persephone 2.6.26-2-amd64 #1 SMP Sun Jun 20 20:16:30 UTC 2010 x86_64 GNU/Linux

Диск Seagate Barracuda ST3500418AS.

Остановки диска (что происходит при потере контакта с кабелем) не было.

S.M.A.R.T. выглядит нормально, диск отработал всего 500 часов с чем-то. Кабель новый, фиксация надёжная. Такую ошибку вижу впервые, в обсуждении на lkml ничего конкретного не нашёл.

Вопрос: что это, и чем может грозить?

★★★★★

Можно попробовать загрузиться с

libata.force=noncq

и

echo 1 > /sys/block/sda/device/queue_depth

И прогнать десяток гигов на копирование. Если не выскочит, баг связан с NCQ. А так народ грешит на кабели.

У меня было давным-давно что-то похожее, но с полумертвой флешкой.

Bad_Habit
()

У меня уже вторую неделю глючит винт (WD Blue 500 Gb) подобным образом. Смена кабелей, портов не помогла. Удалось снизить кол-во вылетающих ошибок поставив перемычку на ограничение с 3.0 до 1.5 Gbit/s.

ЗЫ. Надо попробовать вырубить NCQ.

daemonpnz ★★★★★
()

Проверь питание.

Когда случается:

[  497.269988] ata1.00: status: { DRDY } 
[  497.269994] ata1: hard resetting link 
[  497.753887] ata1: softreset failed (device not ready) 
[  497.753890] ata1: failed due to HW bug, retry pmp=0

возможно случился перегрев/отсечка внутривинчестерного стабилизатора питания из-за мощной импульсной помехи.
iZEN ★★★★★
()

>Остановки диска (что происходит при потере контакта с кабелем) не было.

Это не обязательно.
При наличии SATA CDROM и плохого контакта у него кабеля, можно также получать непонятки по HDD.

elipse ★★★
()
Ответ на: комментарий от Bad_Habit

Хм, спасибо. Если будут рецидивы — попробую.

GotF ★★★★★
() автор топика
Ответ на: комментарий от iZEN

возможно случился перегрев/отсечка внутривинчестерного стабилизатора питания из-за мощной импульсной помехи.

Я не в теме. Это может быть проблема блока питания?

GotF ★★★★★
() автор топика
Ответ на: комментарий от elipse

При наличии SATA CDROM

Нету таких.

GotF ★★★★★
() автор топика
Ответ на: комментарий от daemonpnz

Удалось снизить кол-во вылетающих ошибок поставив перемычку на ограничение с 3.0 до 1.5 Gbit/s.

Это уже больше смахивает на кабель, да.

GotF ★★★★★
() автор топика
Ответ на: комментарий от GotF

Перепробовал 10 штук от разных мамок, а итог один ошибки все равно резут. Счас пропатчил ядрышко на предмет блеклиста своего винта в NCQ. Посмотрим как будет работать.

daemonpnz ★★★★★
()
Ответ на: комментарий от iZEN

Спасибо, конечно, но это не мой случай. Впрочем, там пугают другой проблемой, якобы стандартной для этой модели — это я учту на будущее.

GotF ★★★★★
() автор топика
Ответ на: комментарий от daemonpnz

Вырубил NCQ, ошибка так и лезет, только теперь вместо ncq, ругается на dma

ata1.00: exception Emask 0x50 SAct 0x0 SErr 0x90a00 action 0xe frozen
ata1.00: irq_stat 0x00400000, PHY RDY changed
ata1.00: cmd c8/00:08:37:9f:1b/00:00:00:00:00/e0 tag 0 dma 4096 in
ata1: hard resetting link
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
ata1.00: configured for UDMA/133
ata1: EH complete

daemonpnz ★★★★★
()

Была такая хрень у знакомого, сначала сдох hdd.
Купили новый, почистили контакты, казалось, всё работает.
Через полгода сгорел чипсет )

anon_666
()
Ответ на: комментарий от Nixopatolog

Кабели интерфейсные и питания перепробовал разные. Блок питания FSP 600Вт. Остальные винты от этого БП раньше работали нормально. Сейчас же подключены только WD Black 2Tb и WD5000AAJS, который глючит. Пробовал на всех портах, с 10ком различный кабелей, с/без AHCI. Ничего не помогает. Надо будет попробовать на других компах эту 500ку.

daemonpnz ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.