LINUX.ORG.RU

SSD накапливает ошибки во время работы

 ,


0

1

Дано:

1. Железо:

материнка ASUS Z87-PLUS, версия BIOS 2103

/dev/sda: SSD Model=KINGSTON SH103S3120G, FwRev=521ABBF0

/dev/sdb: HDD ST2000NM0033-9ZM175

# lspci | grep SATA
00:1f.2 SATA controller: Intel Corporation 8 Series/C220 Series Chipset Family 6-port SATA Controller 1 [AHCI mode] (rev 05)
03:00.0 SATA controller: ASMedia Technology Inc. ASM1062 Serial ATA Controller (rev 01)

2. Софт: Debian GNU/Linux 8.7 (jessie) AMD64, со штатным ядром, обновления устанавливаются регулярно.

3. Конфигурация разделов

/dev/sda1: UUID="3506-3CB5" TYPE="vfat" PARTLABEL="RD-2016-UEFI" PARTUUID="3b8d661a-d93a-4be8-8db1-b8a83c56b73b"
/dev/sda2: UUID="0de45a5c-2691-459b-8479-897409523958" TYPE="ext4" PARTLABEL="RD-2016-ROOT" PARTUUID="66095614-064e-4738-932d-d4fa80b497b6"
/dev/sdb1: UUID="9a8d33a7-276a-4a60-bed7-31428c8874bb" TYPE="swap" PARTLABEL="RD-2016-SWAP" PARTUUID="6c600c95-204e-45b1-9aee-d87ddd00e87e"
/dev/sdb2: UUID="b296c9ef-a14d-4b26-92d8-dc96cd35e239" TYPE="ext4" PARTLABEL="RD-2016-HOME" PARTUUID="f5a8b103-82d5-4cb9-bca2-3743b3fd3969"
/dev/sdb3: UUID="862f1bfa-52fc-40e5-bcfd-082384a1731e" TYPE="ext4" PARTLABEL="RD-2016-VAR" PARTUUID="76cfe498-2c01-4777-b58b-9b78c034a011"
/dev/sdb4: UUID="f5064dcf-663b-4c74-8c23-698542ddbfc8" TYPE="ext4" PARTLABEL="RD-2016-PUB-2016" PARTUUID="7ccf98b0-0a79-4fac-9e5f-103624746bd5"

4. Проблема: спустя некоторое время после начала работы (несколько дней..недель) начинают накапливаться ошибки при обращении к SSD: то корневая файловая система становится read-only, то не запускается VirtualBox и в консоли при перезагрузке ошибки доступа к таким-то секторам SSD (причем некоторые сектора указываются по нескольку раз), то не хотят ставиться обновления или запускаться другие программы и тому подобное. Если сделать ребут или выкл-вкл, всё работает как с самого начала, т.е. без ошибок, но стоит некоторое время подождать, и ошибки вновь появляются — до следующего рестарта. До этого на машине стояла оффтоп семерка, и не жаловались — всё работало. На других машинах с такой же конфигурацией железа стоит оффтоп семерка, и не жалуются. На HDD проблем нету. Дергал кабель, думал контакт плохой между материнкой и шлейфом или между SSD и шлейфом, и вроде бы всё заработало, но прошло некоторое время, и опять начали появляться ошибки, которые устраняются рестартом системы без дергания кабеля, и опять сначала всё работает ОК. Пробовал играться параметром монтирования discard — отключение его не повлияло на характер неисправности. Пробовал смотреть параметры здоровья SSD с помощью GSmartControl — не показал проблему, то есть нет «розовых» значений.

Найти: способ решения проблемы, чтобы ошибки на SSD не накапливались, и всё работало сколь угодно длительное время. Может ли исправить ситуацию тупо замена SSD на экземпляр другого вендора или модели?

Просьба поделиться опытом, если были похожие случаи, не обязательно точно такое.

★★★★★

На других машинах с такой же конфигурацией железа стоит оффтоп семерка, и не жалуются.

Поставь на эту машину семерку и посмотри. Только энергосбережение отруби, потому что тогда SSD может отрубаться от питания, что равносильно ребуту и проблемы «типа нет»

someoneelsenotme
()

Может ли исправить ситуацию тупо замена SSD на экземпляр другого вендора или модели

Попробуй для начала поменять кабель, ну и SMART заодно глянуть.

h578b1bde ★☆
()

запусти mhdd да посмотри. смарт можно посмотреть. можно попробовать на другом БП завести систему. вольтажи тама посмотреть и т.д. и т.п.

etwrq ★★★★★
()

У меня из-за кабелей часто бывало подобное. Причём на каком-нибудь noname может полгода проходить, а на брендовом отвалиться на следующий же день; и наоборот. А ещё недавно столкнулся с проседанием напряжения на кабель питания SATA, причём на том же проводе сидит ещё один диск, и не отваливается. В общем, вначале с кабелями пошамань, а уже потом с диском.

r3lgar ★★★★★
()
Ответ на: комментарий от dikiy

Вот думаю поменять подключения к HDD на SSD и наоборот. По идее, если дело в кабеле, то начнутся проблемы с HDD, а у SSD пропадут.

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от Infra_HDC

да. У меня так было раньше. В один прекрасный момент комп не очень хотел грузиццо. Хотя после загрузки норм работал. Помогало дерганье кабеля. Потом его просто заменил.

dikiy ★★☆☆☆
()

Столько букв, а где SMART?

anonymous
()

для начала - прогнать memtest86...

NiTr0 ★★★★★
()
10 марта 2017 г.

Продолжение истории

Поменял местами подключение питания и сигнал SSD и HDD. Работало месяц без сбоев. Однажды в письме от logwatch, логи датировались 2017-Feb-22, нашел такую бяку:

--------------------- Kernel Begin ------------------------ 

 
 WARNING:  Kernel Errors Present
    ata1: SError: { HostInt PHYRd ...:  2 Time(s)
    ata2: SError: { HostInt PHYRd ...:  1 Time(s)
 
 ---------------------- Kernel End ------------------------- 
Буквально сегодня, 10-MAR-2017, решил записать диск с новой версией SystemRescueCd, и к своему удивлению не обнаружил устройства /dev/sr0, причем чтобы оно появилось, ребут не помог, а только завершение работы по питанию; /dev/sr0 тоже на SATA висит.

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от timdorohin

Что-то похожее в логах и раньше было. Уже не первый раз, довольно длительное время так. Думаю в сторону замены кабелей, хотя можно сразу же готовиться к замене материнки. Если буду материнку менять, то буду смотреть не в сторону ASUS, а в сторону GIGABYTE.

Infra_HDC ★★★★★
() автор топика
3 ноября 2017 г.

Проблема осталась. После примерно недели аптайма начинается череда глюков и зависонов.

Пробовал обновлять драйвер видео — не помогает. Обновлял из-за того, что были артефакты при разворачивании-сворачивании проигрывателя Totem, подгрузил несвободный драйвер nvidia из backports.

Коллега посоветовал после начала проблем попробовать замерить нагрузку на процессор, память, дисковый ввод-вывод.

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от Infra_HDC

30.01.2017

Писец. Купи уже новый. Если не в нём окажется дело, то старый просто продай.

anonymous
()
Ответ на: комментарий от Infra_HDC

Можеть быть NCQ https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

Может быть контроллер в ssd плохо работает с sata контроллером на плате. Но у тебя на плате два разных контроллера, встроенный в чипсет C220 и отдельно распаянный ASM1062, потому просто посмотри к какому порту подключен диск на котором наблюдаются ошибки и переключи на другой порт, так чтоб использовался другой sata контроллер.

Aber ★★★★★
()
Ответ на: комментарий от Aber

Сейчас уже просто тупит и подвисает, ошибки диска не вылезают.

Infra_HDC ★★★★★
() автор топика
14 мая 2018 г.

Есть подозрение на троян. Обновил ядро до 4.9 (из бакпортов). Ругани на SATA PHY нет, но проходит дней 6, и при ребуте зависает, но не сразу, а уже при выходе из иксов, и говорит, что не может отмонтировать некоторые файловые системы с HDD.

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от Infra_HDC

4.9 (из бакпортов

Жесть какая. Тут в нормальных дистрибутивах 4.16 и в тестинге 4.17-rc*.

anonymous
()

Обнови биос и контакты почисть.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.