LINUX.ORG.RU

у многих пользователей ошибки SATA, зависание системы


0

0

Что делать? - перелил всю систему на другой винчестер, потом поменял на другой порт sata - вроде прошло, потом опять появилось - что делать не знаю
при чем это чревато тем что при этих ошибках подвисает чтение файлов с винчестера на 5-10 секунд, иногда если этот интервал очень большой - система думает что винчестера вообще нет и отключается от него, при чем даже перегрузить систему нельзя - пишет что команда reboot не найдена.

на вэб серверах это чревато тем что очередь к апачу разрастается и занимает всю память, система уходит в своп и постепенно умирает, при чем процессор при этом не загружен - то есть нестандартное обстоятельство - процессор не загружен, а компьютер тормозит и виснет.

Для винчестера это чревато сокращением срока службы так как при этом он "чиркает" и дергает головками.

очень неприятный глюк - думал железо - а оказалось у всех такое ((( -
href=http://www.google.com.ua/search?hl=ru&client=firefox-a&rls=com.ubuntu...

при чем не первый год http://kerneltrap.org/mailarchive/linux-kernel/2007/6/14/103765 :'(

May 19 21:17:17 mserv kernel: [ 5987.403157] ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2
May 19 21:17:17 mserv kernel: [ 5987.403186] ata4.01: BMDMA stat 0x46
May 19 21:17:17 mserv kernel: [ 5987.403209] ata4.01: cmd c8/00:20:2f:e9:e8/00:00:00:00:00/f3 tag 0 dma 16384 in
May 19 21:17:17 mserv kernel: [ 5987.403210] res 51/84:00:4e:e9:e8/84:00:03:00:00/f3 Emask 0x30 (host bus error)
May 19 21:17:17 mserv kernel: [ 5987.403245] ata4.01: status: { DRDY ERR }
May 19 21:17:17 mserv kernel: [ 5987.403262] ata4.01: error: { ICRC ABRT }
May 19 21:17:17 mserv kernel: [ 5987.403286] ata4: soft resetting link
May 19 21:17:17 mserv kernel: [ 5987.605196] ata4.01: configured for UDMA/133
May 19 21:17:17 mserv kernel: [ 5987.605216] ata4: EH complete
May 19 21:17:17 mserv kernel: [ 5987.628483] sd 3:0:1:0: [sda] 312581808 512-byte hardware sectors (160042 MB)
May 19 21:17:17 mserv kernel: [ 5987.628526] sd 3:0:1:0: [sda] Write Protect is off
May 19 21:17:17 mserv kernel: [ 5987.628530] sd 3:0:1:0: [sda] Mode Sense: 00 3a 00 00
May 19 21:17:17 mserv kernel: [ 5987.628585] sd 3:0:1:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

Вот тоже люди мучаются
http://forum.ubuntu.ru/index.php?topic=23108.0

и вот тоже -> https://bugs.launchpad.net/bugs/+bugs?field.searchtext=soft+resetting+link&am...

прям безвыходная ситуация, что теперь делать??? как с этим теперь жить??? https://bugs.launchpad.net/ubuntu/+source/linux/+bug/217920

что теперь делать???



Странно, уже 3 года живу с SATA дисками (4 шт) a такого не видел.

Способности к телепатии угасли лет 10 назад.

По запаху не могу определить:

Что за система, что за диски, какой контроллер. Так что не знаю какого железа нужно сторониться.

Информативность сообщения = 0

anonymous
()
Ответ на: комментарий от anonymous

#lshw -sanitize -businfo
Bus info Device Class Description
===================================================
system MS-7267
bus MS-7267
memory 64KiB BIOS
cpu@0 processor Intel(R) Pentium(R) 4 CPU 3.00GHz
memory 16KiB L1 cache
memory 2MiB L2 cache
memory L3 cache
memory 2GiB System Memory
memory 1GiB DIMM SDRAM Synchronous
memory DIMM [empty]
memory 1GiB DIMM SDRAM Synchronous
memory DIMM [empty]
parisc@11111 generic
pci@0000:00:00.0 bridge 82945G/GZ/P/PL Memory Controller Hub
pci@0000:00:02.0 display 82945G/GZ Integrated Graphics Controller
pci@0000:00:1d.0 bus 82801G (ICH7 Family) USB UHCI Controller #1
pci@0000:00:1d.1 bus 82801G (ICH7 Family) USB UHCI Controller #2
pci@0000:00:1d.2 bus 82801G (ICH7 Family) USB UHCI Controller #3
pci@0000:00:1d.3 bus 82801G (ICH7 Family) USB UHCI Controller #4
pci@0000:00:1d.7 bus 82801G (ICH7 Family) USB2 EHCI Controller
pci@0000:00:1e.0 bridge 82801 PCI Bridge
pci@0000:01:04.0 eth0 network RTL-8139/8139C/8139C+
pci@0000:00:1f.0 bridge 82801GB/GR (ICH7 Family) LPC Interface Bridge
pci@0000:00:1f.1 storage 82801G (ICH7 Family) IDE Controller
pci@0000:00:1f.2 scsi3 storage 82801GB/GR/GH (ICH7 Family) SATA IDE Controller
scsi@3:0.1.0 /dev/sda disk 160GB WDC WD1600JD-22H
scsi@3:0.1.0,1 /dev/sda1 volume 37GiB EXT3 volume
scsi@3:0.1.0,2 /dev/sda2 volume 102GiB EXT3 volume
scsi@3:0.1.0,3 /dev/sda3 volume 9562MiB Linux swap volume
pci@0000:00:1f.3 bus 82801G (ICH7 Family) SMBus Controller


вот такое выдает в консоли

May 20 13:42:04 mserv kernel: [64982.149445] ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
May 20 13:42:04 mserv kernel: [64982.149479] ata4.01: cmd ca/00:20:97:04:cb/00:00:00:00:00/f3 tag 0 dma 16384 out
May 20 13:42:04 mserv kernel: [64982.149481] res 40/00:00:ce:70:eb/84:00:03:00:00/f3 Emask 0x4 (timeout)
May 20 13:42:04 mserv kernel: [64982.149512] ata4.01: status: { DRDY }
May 20 13:42:04 mserv kernel: [64987.182353] ata4: port is slow to respond, please be patient (Status 0xd0)
May 20 13:42:04 mserv kernel: [64992.163315] ata4: device not ready (errno=-16), forcing hardreset
May 20 13:42:04 mserv kernel: [64992.163323] ata4: soft resetting link
May 20 13:42:04 mserv kernel: [65023.140425] ata4.01: qc timeout (cmd 0xec)
May 20 13:42:04 mserv kernel: [65023.140435] ata4.01: failed to IDENTIFY (I/O error, err_mask=0x4)
May 20 13:42:04 mserv kernel: [65023.140439] ata4.01: revalidation failed (errno=-5)
May 20 13:42:04 mserv kernel: [65023.140463] ata4: failed to recover some devices, retrying in 5 secs
May 20 13:42:04 mserv kernel: [65033.178281] ata4: port is slow to respond, please be patient (Status 0xd0)
May 20 13:42:04 mserv kernel: [65038.159242] ata4: device not ready (errno=-16), forcing hardreset
May 20 13:42:04 mserv kernel: [65038.159250] ata4: soft resetting link
May 20 13:42:04 mserv kernel: [65038.416615] ata4.01: configured for UDMA/33
May 20 13:42:04 mserv kernel: [65038.416638] ata4: EH complete

=====

Ps эта ошибка внешне может быть не очень заметна, и возникает не всегда, например у меня на другом компьютере ее нет, посмотрите свой /var/log/syslog или messages

kiev1
() автор топика
Ответ на: комментарий от kiev1
Ответ на: комментарий от kiev1

я-б микрухи пальчиком потрогал на материнской плате сперва.

anonymous
()
Ответ на: комментарий от MiracleMan

шнурок поменял, на другой контроллер переключил, ошибки сначала прошли, потом опять полезли с переменной частотой - то пол часа нет, то через 5 минут вылазят - зависит от загрузки.

kiev1
() автор топика

Еще можно собрать свежее ванильное ядро вместо убунтовского и попробовать в нем :)

anonymous
()
Ответ на: комментарий от MiracleMan

Ну вот короче доигрались - поменял SATA порт на другой - ошибок стало меньше - но они были, хотя довольно редко - раз в пол часа, базы были очень большие - несколько гигабайт и по этому бекап был проблематичен и был по этому примерно 6-ти дневной давности, пока я думал что делать дальше - или ждать когда в ядре баг поправят или поменять еще что нибудь - проснулся утром и бац! mysql грохнулся да так что при падении разбил всю базу - база была в innodb а она как известно в одном файле - ну кто придумал хранить все базы сервера в одном файле!!! при чтении файла mysql вываливается в что то вроде core-dump - пишет "Assertion failure" и никакой innodb_force_recovery = 4 не помогал - все равно "Assertion failure".

В общем что делать - беру материнку настоящую интелловскую, запускаю систему на ней, работает, ошибок нет, копирую файлы - бац! ошибка опять вылезла но система подвешивалась меньше, но подвешивалась - на интел материнке оно из soft resetting link выходит быстрее, а hard resetting link - не замечал.

Короче поменял блок питания, винчестер, материнку - ошибки остались, но в меньшей степени.

В результате поставил туда старенький IDE винчестер - все неприятности прошли кроме одной - из за этой убунты потерял данные за 5 дней, сервер лежал пол дня, начальство в шоке, а я собираюсь увольняться.

Вот такая вот грустная история...

kiev1
() автор топика
Ответ на: комментарий от kiev1

Забанить тебя по хорошему бы надо. За то, что ты разрушаешь нашу веру в то, что Линакс более стабилен и надёжен чем виндовс.

anonymous
()
Ответ на: комментарий от anonymous

линукс конечно лучше - лучше даже что то потерять по недосмотру чем жить с троянами и вирусами, бага эта говорят в ядрах до 19-го не проявляется.

kiev1
() автор топика
Ответ на: комментарий от kiev1

Да вроде ничего интересного не говорит:

[   30.038127] ata1: SATA max UDMA/133 abar m2048@0xe2222000 port 0xe2222100 irq 217
[   30.038291] ata2: SATA max UDMA/133 abar m2048@0xe2222000 port 0xe2222180 irq 217
[   30.038454] ata3: SATA max UDMA/133 abar m2048@0xe2222000 port 0xe2222200 irq 217
[   30.038618] ata4: SATA max UDMA/133 abar m2048@0xe2222000 port 0xe2222280 irq 217
[   30.038783] ata5: SATA max UDMA/133 abar m2048@0xe2222000 port 0xe2222300 irq 217
[   30.038946] ata6: SATA max UDMA/133 abar m2048@0xe2222000 port 0xe2222380 irq 217
[   30.498347] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[   30.499379] ata1.00: ATA-8: WDC WD2500AAJS-00VTA0, 01.01B01, max UDMA/133
[   30.499489] ata1.00: 488397168 sectors, multi 0: LBA48 NCQ (depth 31/32)
[   30.500592] ata1.00: configured for UDMA/133
[   30.960206] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[   30.961222] ata2.00: ATA-8: WDC WD2500AAJS-00VTA0, 01.01B01, max UDMA/133
[   30.961331] ata2.00: 488397168 sectors, multi 0: LBA48 NCQ (depth 31/32)
[   30.962435] ata2.00: configured for UDMA/133
[   31.267784] ata3: SATA link down (SStatus 0 SControl 300)
[   31.573324] ata4: SATA link down (SStatus 0 SControl 300)
[   32.033158] ata5: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[   32.034162] ata5.00: ATA-8: WDC WD2500AAJS-00VTA0, 01.01B01, max UDMA/133
[   32.034274] ata5.00: 488397168 sectors, multi 0: LBA48 NCQ (depth 31/32)
[   32.035376] ata5.00: configured for UDMA/133
[   32.495019] ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[   32.496028] ata6.00: ATA-8: WDC WD2500AAJS-00VTA0, 01.01B01, max UDMA/133
[   32.496140] ata6.00: 488397168 sectors, multi 0: LBA48 NCQ (depth 31/32)
[   32.497245] ata6.00: configured for UDMA/133
[   32.497436] scsi 0:0:0:0: Direct-Access     ATA      WDC WD2500AAJS-0 01.0 PQ: 0 ANSI: 5
[   32.595807] scsi 1:0:0:0: Direct-Access     ATA      WDC WD2500AAJS-0 01.0 PQ: 0 ANSI: 5
[   32.609558] scsi 4:0:0:0: Direct-Access     ATA      WDC WD2500AAJS-0 01.0 PQ: 0 ANSI: 5
[   32.627113] scsi 5:0:0:0: Direct-Access     ATA      WDC WD2500AAJS-0 01.0 PQ: 0 ANSI: 5
[   32.636095] ata7: PATA max UDMA/100 cmd 0x2018 ctl 0x2024 bmdma 0x2000 irq 17
[   32.636195] ata8: DUMMY
[   32.960247] ata7.00: ATAPI: Optiarc DVD RW AD-7190A, 1.03, max UDMA/66
[   33.134700] ata7.00: configured for UDMA/66

2.6.24-zen4 #5 SMP PREEMPT Thu May 1 17:48:40 KRAST 2008 i686 Intel(R) Core(TM)2 Duo CPU E4500 @ 2.20GHz GenuineIntel GNU/Linux

uptime

18:52:13 up 21 days, 50 min, 29 users,  load average: 0.04, 0.02, 0.00

koolig
()
Ответ на: комментарий от koolig

значит повезло, тем более у вас винчестер с поддержкой NCQ, эта беда проявляется при копировании большого например 2Гб файла, не проявляется на IDE винчестерах, у меня дома ноутбучный винт - тоже не проявляется.

kiev1
() автор топика
Ответ на: комментарий от hizel

я даже и не знаю, но весь Kernel Bug Tracker пестрит сообщениями

"System hang from time to time" http://bugzilla.kernel.org/show_bug.cgi?id=8300

"sata hotplug removal of drive freezes all 2.6.21 kernels" http://bugzilla.kernel.org/show_bug.cgi?id=8421

"(sata_via) system freeze in random time" http://bugzilla.kernel.org/show_bug.cgi?id=9115

"System freezes after I/O on pata_jmicron device" http://bugzilla.kernel.org/show_bug.cgi?id=10296

короче зашли в тупик

kiev1
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.