LINUX.ORG.RU

FreeBSD, gmirror и плохо себя ведущий хард.


0

0

Сделали gmirror из 2-х хардов. Сутки полёт был нормальный, на следующие сервер висел 2 часа, а когда внезапно стал отвечать в логах было много сообщений типа:


Nov 18 06:09:35 gamma kernel: ad4: WARNING - SETFEATURES ENABLE RCACHE taskqueue timeout - completing request directly
Nov 18 06:09:40 gamma kernel: ad4: WARNING - SETFEATURES ENABLE WCACHE taskqueue timeout - completing request directly
Nov 18 06:09:44 gamma kernel: ad4: WARNING - SET_MULTI taskqueue timeout - completing request directly
Nov 18 06:09:44 gamma kernel: ad4: TIMEOUT - WRITE_DMA retrying (1 retry left) LBA=22230719


Шлейфы совсем недавно меняли на новые, харды куплены не более, чем полгода назад.

smartctl выдаёт, в частности, следующее:


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 242 228 021 Pre-fail Always - 7866
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 83
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 095 095 000 Old_age Always - 3848
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 82
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 81
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 83
194 Temperature_Celsius 0x0022 122 106 000 Old_age Always - 28
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0


С чем всё-таки может быть проблема? Что ещё посмотреть, и что имеет смысл предпринять?

Зарнее спасибо

Ответ на: комментарий от iZEN

uname -a:

FreeBSD [рратататата] 7.2-STABLE FreeBSD 7.2-STABLE #10: Thu Sep 17 18:02:49 MSD 2009 [тратата]/usr/obj/usr/src/sys/NETBREEZE amd64

Хард: ad4 <WDC WD1001FALS-00J7B0/05.00K05> SATA revision 2.x

второй такой же.

raystlin
() автор топика
Ответ на: комментарий от raystlin

Оно: http://products.gigabyte.ru/forum/viewtopic.php?f=23&t=33629

В общем, промучившись 3 недели, разобрав и собрав весь комп несколько раз, меняя комплектуху и экспериментируя с биосом, я выяснил сию мистическую причину... Виновата была мать, а точнее фирменная технология, именуемая DualBIOS! Gigabyte реализует эту технологию либо установкой резервной микросхемы биос на матплате (у плат среднего и высшего сегментов), либо используя HPA (у низших и у некоторых плат среднего сегмента) Первый способ подразумевает восстановления неисправного BIOS из резервной микросхемы, второй позволяет восстановить биос из резервной копии, находящейся в HPA (host protected area) на HDD.

На мамке GA-EP45-DS3 используются оба варианта, причем по умолчанию в биосе стоит именно HPA. Как выяснилось, работает этот метод следующим образом: При подключении нового винта к маме, биос автоматически резервирует в служебной области HDD место, куда помещает свою копию. И делает он это на абсолютно ВСЕХ винтах, которые когда-либо были подключены к матплате! После такой «модификации» с ними возникает вышеописаная мной проблема - невозможно корректно установить ОС начиная с Vista и выше, причем проявляется она исключительно на данной плате!

Вопрос: как лечить? Установка в биос параметра «backup BIOS recovery source » в режим «backup BIOS» уже не помогает - HPA на винте уже существует :( Значит надо ее удалить!!!! Но вот незадача: ни одна программа-менеджер дисков, ни инсталлятор Windows этой облаcти не видит, соответственно удалить ее не может. Погуглив, я узнал, что позволяют это сделать следующие утилиты: MHDD 4.6, HDAT2, Victoria 4.46, HDD Capacity Restore. Первые две для DOS, последние две для Windows. Я опробовал все, но в моем случае помогла только HDD Capacity Restore, остальные выдавали ошибки

После этого на ST3250624NS прекрасно встала Windows 7, причем как в нативном, так и в AHCI режиме.... Собсно, вот такие пироги с котятами....

Cудя по гуглу, данная проблема проявляется и у других мамок от Gigabyte, так что надеюсь данная информация будет кому-то полезной

???

iZEN ★★★★★
()
Ответ на: комментарий от raystlin

SMART одного диска хороший. Покажите SMART второго диска.

Задействуется ли аппаратный RAID через BIOS?

Как включалиcь диски в GMirror: в RAW-режиме или после создания разделов разделами?

Блок питания не шалит?

iZEN ★★★★★
()
Ответ на: комментарий от iZEN

> Задействуется ли аппаратный RAID через BIOS?

Нет.

Блок питания не шалит?

Нет.

SMART одного диска хороший. Покажите SMART второго диска.

Нет. Сервак снова лёг, уже с одним хардом =). Так что будет когда и если поднимется.

raystlin
() автор топика
Ответ на: комментарий от iZEN

>Как включалиcь диски в GMirror: в RAW-режиме или после создания разделов разделами?

По этой вот инструкции (русскоязычной части), с уже созданными разделами: http://www.opennet.ru/base/sys/freebsd_gmirror_raid1.txt.html

raystlin
() автор топика

хахаха izen сдулся, freebsd до хорошего не доведет

anonymous
()
Ответ на: комментарий от raystlin

Там описание устарело.
Лично я не использую разделы FreeBSD внутри слайса (режим MBR) — только разделы (GPT) целиком.

Недавно полностью перешёл на ZFS. Два пула: один зеркалирующий с кучей файловых систем под каталоги самой операционки и хомяки, другой пул использую в роли страйп-массива (два раздела двух дисков внесены в один пул). Не нужно задумываться о пространстве, выделяемом под конкретный каталог, так как ФС'ы в пуле разделяют общее пространство.



SMART второго диска хотелось бы глянуть.

iZEN ★★★★★
()
Ответ на: комментарий от iZEN

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 227 021 Pre-fail Always - 7350
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 108
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 095 095 000 Old_age Always - 4089
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 107
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 106
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 108
194 Temperature_Celsius 0x0022 125 108 000 Old_age Always - 25
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 2493 -

raystlin
() автор топика
Ответ на: комментарий от raystlin

Переходите на GPT-разметку. Каждый раздел зеркалируйте отдельно.

iZEN ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.