LINUX.ORG.RU
ФорумAdmin

exception Emask 0x0 SAct 0x7f SErr 0x0 action 0x0


0

1

Сегодня в syslog обнаружил:

Oct 15 17:43:37 host3 kernel: [6305083.627438] ata1.00: exception Emask 0x0 SAct 0x7f SErr 0x0 action 0x0

Oct 15 17:43:37 host3 kernel: [6305083.628419] ata1.00: irq_stat 0x40000008

Oct 15 17:43:37 host3 kernel: [6305083.629392] ata1.00: failed command: READ FPDMA QUEUED

https://dl.dropbox.com/u/59491914/123.txt - полный лог

Проверил рейд

# cat /proc/mdstat Personalities : [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md1 : active raid1 sda2[2] sdb2[1] 2929739071 blocks super 1.2 [2/2] [UU]

md0 : active raid1 sda1[2] sdb1[1] 524276 blocks super 1.2 [2/2] [UU]

unused devices: <none>

По смарту тоже вроде все ок. Все ли норм с ФС и хардами?



Последнее исправление: poiuty (всего исправлений: 6)

портянку надо было в [code] обернуть - всё бы случилось сразу ;)

проверь шлейфы для начала. и питание. (в т.ч. блок питания на предмет беременности банок)
это я про

Oct 15 17:43:50 host3 kernel: [6305096.628060] ata1.00: status: { DRDY ERR }
Oct 15 17:43:50 host3 kernel: [6305096.628805] ata1.00: error: { UNC }

aol ★★★★★
()
Последнее исправление: aol (всего исправлений: 1)
Ответ на: комментарий от aol

В ДЦ отписал уже по этому поводу. Сам проверить не могу. А еще варианты почему такое может происходить?

poiuty
() автор топика
Ответ на: комментарий от aol

Спасибо. В ДЦ предложили.

Dear client,

we would replace the SATA cables. Please tell us when we can shutdown the server for this.

У меня бекап сейчас идет. Проблема потерпит часов 5, или стоит уже сейчас заменить?

poiuty
() автор топика
Ответ на: комментарий от poiuty

это дедик?
ну, незнай.. оно же не на уровне фс рапортует.. так что, либо шлейфы/питание, либо хард. я бы начал усиленно бэкапить, если оно не у тебя под боком. или у них бэкап закажи, чтоб побыстрей )

aol ★★★★★
()
Ответ на: комментарий от poiuty

хрен его знает, тов. майор...
главное, чтобы это был не первый/единственный бэкап ;)

то есть, они сами подтвердили, что шлейфы? или по твоим наводящим вопросам?

aol ★★★★★
()
Ответ на: комментарий от poiuty

ну, тогда это не бэкап.. так, байтики погонять. а я-то думал..

aol ★★★★★
()
Ответ на: комментарий от aol

Все норм. Проблема была в следующем.

Dear client, the Grub on first disk isn't installed properly, after manual boot from second disk, the server should be now in normal system again.

А хостер hetzner.

poiuty
() автор топика
Ответ на: комментарий от aol

сейчас вот так xD ночью будем исправлять

fdisk -l

WARNING: GPT (GUID Partition Table) detected on '/dev/sdb'! The util fdisk doesn't support GPT. Use GNU Parted.


Disk /dev/sdb: 3000.6 GB, 3000592982016 bytes
256 heads, 63 sectors/track, 363376 cylinders
Units = cylinders of 16128 * 512 = 8257536 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1               1      266306  2147483647+  ee  GPT
Partition 1 does not start on physical sector boundary.

WARNING: GPT (GUID Partition Table) detected on '/dev/sda'! The util fdisk doesn't support GPT. Use GNU Parted.


Disk /dev/sda: 3000.6 GB, 3000592982016 bytes
256 heads, 63 sectors/track, 363376 cylinders
Units = cylinders of 16128 * 512 = 8257536 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1               1      266306  2147483647+  ee  GPT
Partition 1 does not start on physical sector boundary.

Disk /dev/md0: 536 MB, 536858624 bytes
2 heads, 4 sectors/track, 131069 cylinders
Units = cylinders of 8 * 512 = 4096 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

Disk /dev/md0 doesn't contain a valid partition table

Disk /dev/md1: 3000.1 GB, 3000052808704 bytes
2 heads, 4 sectors/track, 732434767 cylinders
Units = cylinders of 8 * 512 = 4096 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

Disk /dev/md1 doesn't contain a valid partition table

Disk /dev/dm-0: 1610.6 GB, 1610612736000 bytes
255 heads, 63 sectors/track, 195812 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

Disk /dev/dm-0 doesn't contain a valid partition table

Disk /dev/dm-1: 34.4 GB, 34359738368 bytes
255 heads, 63 sectors/track, 4177 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

Disk /dev/dm-1 doesn't contain a valid partition table

Disk /dev/dm-2: 1073.7 GB, 1073741824000 bytes
255 heads, 63 sectors/track, 130541 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

Disk /dev/dm-2 doesn't contain a valid partition table
poiuty
() автор топика
Ответ на: комментарий от aol

Что-то везет просто дико. После замены наблюдаю

Oct 16 23:27:19 host3 kernel: [32397.984036] ata1.00: exception Emask 0x0 SAct 0x7fffff SErr 0x0 action 0x0
Oct 16 23:27:19 host3 kernel: [32397.984636] ata1.00: irq_stat 0x40000008
Oct 16 23:27:19 host3 kernel: [32397.985226] ata1.00: failed command: READ FPDMA QUEUED
Oct 16 23:27:19 host3 kernel: [32397.985802] ata1.00: cmd 60/a0:18:b0:23:81/00:00:d7:00:00/40 tag 3 ncq 81920 in
Oct 16 23:27:19 host3 kernel: [32397.985804]          res 41/40:a0:b0:23:81/00:00:d7:00:00/00 Emask 0x409 (media error) <F>
Oct 16 23:27:19 host3 kernel: [32397.986965] ata1.00: status: { DRDY ERR }
Oct 16 23:27:19 host3 kernel: [32397.987586] ata1.00: error: { UNC }
Oct 16 23:27:19 host3 kernel: [32398.052825] ata1.00: configured for UDMA/133
Oct 16 23:27:19 host3 kernel: [32398.053504] ata1: EH complete
Oct 16 23:27:24 host3 kernel: [32402.771121] ata1.00: exception Emask 0x0 SAct 0x1bffee SErr 0x0 action 0x0
Oct 16 23:27:24 host3 kernel: [32402.771736] ata1.00: irq_stat 0x40000008
Oct 16 23:27:24 host3 kernel: [32402.772349] ata1.00: failed command: READ FPDMA QUEUED
Oct 16 23:27:24 host3 kernel: [32402.772935] ata1.00: cmd 60/a0:98:b0:23:81/00:00:d7:00:00/40 tag 19 ncq 81920 in
Oct 16 23:27:24 host3 kernel: [32402.772936]          res 41/40:a0:c0:23:81/00:00:d7:00:00/00 Emask 0x409 (media error) <F>
Oct 16 23:27:24 host3 kernel: [32402.774096] ata1.00: status: { DRDY ERR }
Oct 16 23:27:24 host3 kernel: [32402.774675] ata1.00: error: { UNC }
Oct 16 23:27:24 host3 kernel: [32402.909861] ata1.00: configured for UDMA/133
Oct 16 23:27:24 host3 kernel: [32402.910479] ata1: EH complete
Oct 16 23:27:27 host3 kernel: [32405.879173] ata1.00: exception Emask 0x0 SAct 0x1ffff SErr 0x0 action 0x0
Oct 16 23:27:27 host3 kernel: [32405.879888] ata1.00: irq_stat 0x40000008
Oct 16 23:27:27 host3 kernel: [32405.880610] ata1.00: failed command: READ FPDMA QUEUED
Oct 16 23:27:27 host3 kernel: [32405.881394] ata1.00: cmd 60/a0:08:b0:23:81/00:00:d7:00:00/40 tag 1 ncq 81920 in
Oct 16 23:27:27 host3 kernel: [32405.881396]          res 41/40:a0:c0:23:81/00:00:d7:00:00/00 Emask 0x409 (media error) <F>
Oct 16 23:27:27 host3 kernel: [32405.882848] ata1.00: status: { DRDY ERR }
Oct 16 23:27:27 host3 kernel: [32405.883646] ata1.00: error: { UNC }
Oct 16 23:27:27 host3 kernel: [32405.951255] ata1.00: configured for UDMA/133
Oct 16 23:27:27 host3 kernel: [32405.951932] ata1: EH complete

poiuty
() автор топика
Ответ на: комментарий от poiuty

Так же сегодня сервер сам ушел в ребут

Oct 16 14:01:24 host3 shutdown [248151]: shutting down for system reboot
Oct 16 14:05:49 host3 shutdown [19907]: shutting down for system reboot

Есть идеи, что может творится? Температуру CPU проверил

Core 0:        +51.0б╟C  (high = +80.0б╟C, crit = +98.0б╟C)
Core 1:        +57.0б╟C  (high = +80.0б╟C, crit = +98.0б╟C)
Core 2:        +54.0б╟C  (high = +80.0б╟C, crit = +98.0б╟C)
Core 3:        +50.0б╟C  (high = +80.0б╟C, crit = +98.0б╟C)
poiuty
() автор топика
Ответ на: комментарий от aol

last смотрел, только мой ип. доступ к ssh открыт только с моего ip. И еще лог

Oct 17 01:06:42 host3 kernel: [38358.420940] ata2.00: exception Emask 0x10 SAct 0x1f002 SErr 0x400100 action 0x6 frozen
Oct 17 01:06:42 host3 kernel: [38358.421591] ata2.00: irq_stat 0x08000000, interface fatal error
Oct 17 01:06:42 host3 kernel: [38358.422273] ata2: SError: { UnrecovData Handshk }
Oct 17 01:06:42 host3 kernel: [38358.422938] ata2.00: failed command: READ FPDMA QUEUED
Oct 17 01:06:42 host3 kernel: [38358.423593] ata2.00: cmd 60/10:08:90:ed:b0/00:00:e1:00:00/40 tag 1 ncq 8192 in
Oct 17 01:06:42 host3 kernel: [38358.423594]          res c0/00:08:48:3a:71/00:00:e1:00:00/40 Emask 0x12 (ATA bus error)
Oct 17 01:06:42 host3 kernel: [38358.424930] ata2.00: status: { Busy }
Oct 17 01:06:42 host3 kernel: [38358.425611] ata2.00: failed command: WRITE FPDMA QUEUED
Oct 17 01:06:42 host3 kernel: [38358.426319] ata2.00: cmd 61/08:60:20:6f:ba/00:00:ca:00:00/40 tag 12 ncq 4096 out
Oct 17 01:06:42 host3 kernel: [38358.426320]          res c0/00:08:48:3a:71/00:00:e1:00:00/40 Emask 0x12 (ATA bus error)
Oct 17 01:06:42 host3 kernel: [38358.427703] ata2.00: status: { Busy }
Oct 17 01:06:42 host3 kernel: [38358.428417] ata2.00: failed command: WRITE FPDMA QUEUED
Oct 17 01:06:42 host3 kernel: [38358.429097] ata2.00: cmd 61/08:68:28:6f:ba/00:00:ca:00:00/40 tag 13 ncq 4096 out
Oct 17 01:06:42 host3 kernel: [38358.429099]          res c0/00:08:48:3a:71/00:00:e1:00:00/40 Emask 0x12 (ATA bus error)
Oct 17 01:06:42 host3 kernel: [38358.430419] ata2.00: status: { Busy }
Oct 17 01:06:42 host3 kernel: [38358.431057] ata2.00: failed command: WRITE FPDMA QUEUED
Oct 17 01:06:42 host3 kernel: [38358.431700] ata2.00: cmd 61/08:70:30:6f:ba/00:00:ca:00:00/40 tag 14 ncq 4096 out
Oct 17 01:06:42 host3 kernel: [38358.431702]          res c0/00:08:48:3a:71/00:00:e1:00:00/40 Emask 0x12 (ATA bus error)
Oct 17 01:06:42 host3 kernel: [38358.432963] ata2.00: status: { Busy }
Oct 17 01:06:42 host3 kernel: [38358.433627] ata2.00: failed command: WRITE FPDMA QUEUED
Oct 17 01:06:42 host3 kernel: [38358.434295] ata2.00: cmd 61/08:78:38:6f:ba/00:00:ca:00:00/40 tag 15 ncq 4096 out
Oct 17 01:06:42 host3 kernel: [38358.434296]          res c0/00:08:48:3a:71/00:00:e1:00:00/40 Emask 0x12 (ATA bus error)
Oct 17 01:06:42 host3 kernel: [38358.435591] ata2.00: status: { Busy }
Oct 17 01:06:42 host3 kernel: [38358.436260] ata2.00: failed command: WRITE FPDMA QUEUED
Oct 17 01:06:42 host3 kernel: [38358.436918] ata2.00: cmd 61/08:80:40:6f:ba/00:00:ca:00:00/40 tag 16 ncq 4096 out
Oct 17 01:06:42 host3 kernel: [38358.436920]          res c0/00:08:48:3a:71/00:00:e1:00:00/40 Emask 0x12 (ATA bus error)
Oct 17 01:06:42 host3 kernel: [38358.438231] ata2.00: status: { Busy }
Oct 17 01:06:42 host3 kernel: [38358.438874] ata2: hard resetting link
Oct 17 01:06:43 host3 kernel: [38358.744635] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Oct 17 01:06:43 host3 kernel: [38358.813032] ata2.00: configured for UDMA/133
Oct 17 01:06:43 host3 kernel: [38358.813690] ata2: EH complete

poiuty
() автор топика
Ответ на: комментарий от poiuty

ну, прикольно, чо.. в первом сообщении лог был с проблемами на ата1, а теперь та же фигня на ата2..

теперь я тебе очень желаю иметь бэкап на другом хосте.

aol ★★★★★
()
Ответ на: комментарий от aol

Перетащил основных клиентов с этого сервера. Буду качать бекапы, дальше отправлю сервер на тест и там уже как будет.

poiuty
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.