LINUX.ORG.RU

Стали появляться проблемы с диском.

 , , ,


1

2

Уже второй раз (первый был несколько дней назад) возникают ошибки ФС и диск перемонтируется в ро:

[ 6974.205725] EXT4-fs error (device sda2): ext4_iget:4761: inode #7699735: comm TaskSchedulerFo: bad extra_isize 65535 (inode size 256)
[ 6974.210925] Aborting journal on device sda2-8.
[ 6974.213421] EXT4-fs (sda2): Remounting filesystem read-only
[ 6974.214980] EXT4-fs error (device sda2): ext4_journal_check_start:61: Detected aborted journal
[ 6995.041017] systemd-journald[281]: Failed to write entry (26 items, 852 bytes), ignoring: Read-only file system
[ 6995.041254] systemd-journald[281]: Failed to write entry (26 items, 835 bytes), ignoring: Read-only file system
[ 6995.041313] systemd-journald[281]: Failed to write entry (26 items, 1059 bytes), ignoring: Read-only file system
[ 6995.041364] systemd-journald[281]: Failed to write entry (26 items, 852 bytes), ignoring: Read-only file system
[ 6995.041599] systemd-journald[281]: Failed to write entry (26 items, 852 bytes), ignoring: Read-only file system
[ 6995.041652] systemd-journald[281]: Failed to write entry (26 items, 852 bytes), ignoring: Read-only file system
[ 6995.041715] systemd-journald[281]: Failed to write entry (26 items, 852 bytes), ignoring: Read-only file system

Диск:

> sudo hdparm -i /dev/sda
[sudo] пароль для alex: 

/dev/sda:

 Model=SanDisk SD8TB8U256G1001, FwRev=X4120101, SerialNo=170617804405
 Config={ }
 RawCHS=16383/16/63, TrkSize=0, SectSize=0, ECCbytes=0
 BuffType=unknown, BuffSize=unknown, MaxMultSect=1, MultSect=off
 (maybe): CurCHS=16383/16/63, CurSects=16514064, LBA=yes, LBAsects=500118192
 IORDY=on/off, tPIO={min:120,w/IORDY:120}, tDMA={min:120,rec:120}
 PIO modes:  pio0 pio1 pio2 pio3 pio4 
 DMA modes:  mdma0 mdma1 mdma2 
 UDMA modes: udma0 udma1 udma2 udma3 udma4 udma5 *udma6 
 AdvancedPM=yes: unknown setting WriteCache=enabled
 Drive conforms to: unknown:  ATA/ATAPI-4,5,6,7

 * signifies the current active mode

Сам я в этом смарте ничерта не понимаю:

> sudo smartctl -A /dev/sda 
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-39-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 4
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   ---    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   ---    Old_age   Always       -       4435
 12 Power_Cycle_Count       0x0032   100   100   ---    Old_age   Always       -       460
170 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
171 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       0
173 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       7
174 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       96
178 Used_Rsvd_Blk_Cnt_Chip  0x0032   100   100   ---    Old_age   Always       -       0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033   100   100   010    Pre-fail  Always       -       100
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   ---    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   067   048   ---    Old_age   Always       -       33 (Min/Max 13/48)
199 UDMA_CRC_Error_Count    0x0032   100   100   ---    Old_age   Always       -       0
233 Media_Wearout_Indicator 0x0033   098   100   001    Pre-fail  Always       -       16278028
234 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       4297
241 Total_LBAs_Written      0x0030   253   253   ---    Old_age   Offline      -       3367
242 Total_LBAs_Read         0x0030   253   253   ---    Old_age   Offline      -       5468
249 Unknown_Attribute       0x0032   100   100   ---    Old_age   Always       -       1973
Вот что это за End-to-End_Error? 97 это плохо да? Это может быть следствием проблем со шлейфом или это однозначно сам диск?

После перезагрузки система не грузится и просит fsck. После проверки начинает работать нормально.

UPD: Проблема проявляется на всех ядрах от 4.15 до 4.19 включительно.

Пока всегда только с диском /dev/sda2 (но он и используется интенсивнее). На данный момент диски смонтированы так:

UUID=27652258-937c-4be5-b12b-83ade6d5ff80	/               	ext4    errors=remount-ro,discard,commit=60		0       1
UUID=f1e0b59c-9f19-427c-acb2-f3f45d2eca55	/home/alex/misc         ext4    errors=remount-ro,noatime,discard	0       1
UUID=5667-4C56					/boot/efi       vfat    umask=0077			0       1
/home/alex/misc/swapfile			none            swap    sw				0       0

tmpfs						/tmp				tmpfs	rw,noatime,nosuid,mode=01777,size=2g						0	0
tmpfs						/var/tmp			tmpfs	rw,size=1g									0	0
tmpfs						/var/cache/apt/archives		tmpfs	rw,noatime,nosuid,size=1g							0	0
commit на /dev/sda2 и перенос swapfile на /dev/sda3 сделал недавно с целью увеличить интенсивность его использования и попробовадь получить ошибку на нем, чтобы убедится, что проблема свойственно железу или непосредственно дику, а не конкретному разделу.

Сервис Lenovo с помощью встроенного тестировния выявил неисправность планки RAM, которую надо сказать к чести Lenovo заменили в течении недели у меня на дому и мне даже не пришлось никуда ехать.

Тест железа встроенный прогнал 4 раза - никаких ошибок ниразу не вылезло. Следующим этапом по совету сервисника обновил BIOS (была и правда очень старая версия). Потом скачал SanDisk Dashboard и проверил диск им (пришлось венду на флэшку ради этого вкорячить), в том числе расширенное тестирование SMART. Прошивка диска последняя.

Проблема сохраняется.

UPD:
С момента переустановки прошел месяц. Полет нормальный. Нужно констатировать следующее - источником проблем стала оперативная память, что привело к повреждению данных записываемых на диск, а это в свою очередь повлекло все остальные последствия. Считаю что сервис Lenovo отработал оперативно - от момента обращение в чат, на сайте производителя, до замены планки памяти прошло 6 дней. Учитывая погодные условия и то что я не в ДС считаю это хорошей реакцией + мне не пришлось никуда ехать - специалист СЦ, приехал для выполнения работ ко мне, в тот же день когда в СЦ поступила деталь, не смотря на то, что к этому времени рабочий день уже завершился.

★★★★★

Последнее исправление: Suntechnic (всего исправлений: 4)

End-to-End_Error

Это может быть следствием проблем со шлейфом

Да. Но у тебя их нет. А ты смотришь не в тот столбец.

intelfx ★★★★★
()
Ответ на: комментарий от intelfx

А куда надо смотреть? Все время путаюсь. В RAW_VALUE? Тогда меня должно наверное напрягать 4297 в параметры 234 который в утилите Диски называется «Неисправимы ошибки ECC»?

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

А куда надо смотреть? Все время путаюсь. В RAW_VALUE?

В общем случае нужно смотреть в VALUE. А в RAW_VALUE нужно смотреть только тогда, когда ты на 100% уверен, как это самое RAW_VALUE интерпретировать.

параметры 234 который в утилите Диски называется «Неисправимы ошибки ECC»?

А в википедии он называется «Average erase count AND Maximum Erase Count». А если в базе smartmontools его нет, то лучше никому не верить (кроме документации на диск).

intelfx ★★★★★
()
Ответ на: комментарий от intelfx

Странно - в моей википедии он называется «Количество неисправимых ошибок ECC», хотя в буржуинской и правда «Average erase count AND Maximum Erase Count».

Короче СМАРТ ответа на то срочно менять диск или еще поживет не даст?

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

Ну вообще даст: видишь, там написано PASSED? :)

Но полезность этой оценки примерно нулевая: на моей памяти не было ещё ни одного диска, который бы сказал FAILING до того, как начали теряться данные.

Если серьёзно, то ответ будет, если ты найдёшь документацию по атрибутам SMART на свой диск.

intelfx ★★★★★
()
Последнее исправление: intelfx (всего исправлений: 1)

Смарт в порядке (все value > thresh). Проблема может бытьв шлейфе, питании, контроллере ссд, в драйвере фс (пробегал тут деятель с экспериментальным драйвером, ты не из таких, я надеюсь).

Мои рекомендации: заменить или потуже вставить провода, заменить бп если старый, убрать пыль (в т.ч. с плат), ссд вывести из работы и погонять тест записи.

legolegs ★★★★★
()
Последнее исправление: legolegs (всего исправлений: 1)
Ответ на: комментарий от legolegs

заменить или потуже вставить провода

Ну они вроде вставлены там до щелчка, но я сразу заподозрил неладное как увидел, что они вообще есть.

заменить бп если старый

Это ноут. Новый. Год или есть или будет в следующем месяце.

ссд вывести из работы и погонять тест записи.

Для этого надо новый купить и переставить систему. Но наверно это в любом случае буду теперь делать.

Suntechnic ★★★★★
() автор топика

Дешманское железо просто покупать не надо. Несмотря на смарт и несмотря на все проверки оно и дальше будет делать вам нервы.

anonymous
()
Ответ на: комментарий от legolegs

а что, ссд потребляет больше хдд штоле?

ссд вывести из работы и погонять тест записи

metro88
()

а что говорит fsck? Badblocks есть?

Pyzia ★★★★★
()
Ответ на: комментарий от Suntechnic

Ну может быть провода в тесноте пережаты оказались.

Питание может быть разным от зарядки и от батарей.

Всё равно так жить нельзя, надо понять кто виноват.

Переведи систему временно на флешку, если ссд/диска нет. LVM-то есть?

legolegs ★★★★★
()
Ответ на: комментарий от legolegs

Нет ни диска, ни флэшки подходящей. И я в деревне у родителей занесенной снегом :(

Пока работает и то хлеб. Вернусь в большой город - куплю новый, а этот ... ну не знаю, если как говорит fcx можно обменять - попробую. Хотя он в составе ноута же продавался. не знаю выйдет ли.

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

Нет ни диска, ни флэшки подходящей.

Сделай копии собственных (т.е. написанных/вымученных тобой самим данных) в несколько разных мест хотя бы и на этом самом диске, тогда их можно будет попытаться достать ddrescue.

ABW ★★★★★
()
Ответ на: комментарий от ABW

Это постоянно делается. Шифруется и в облака. Но только настройки и конфиги. Данные на ноуте вообще не хранятся.

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

Тогда если ядро младше 4.19 - попробуй подновить. Там очень сильно IOMMU правили, и как результат - порча ФС периодическая на части ядер. Просто этим страдали AMD+AMD в первую очередь, там люьый баттхерт был до 4.17. Правда, я у себя не смог завести 4.18 - там тоже много поломали, поэтому перекатился на 4.19 и волосы стали мягкими и шелковистыми. Кроме саспенда на AMD R5 - но это уже другая опера.

Deleted
()
Ответ на: комментарий от Deleted

Очень интересно... С другой стороны последний сбой был на 4.15 (у меня есть dmesg). На 4.19 у меня дрова невидии не заводятся. Ну или prime их не может включить. Можно попробовать 4.20.

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Deleted

Поставил 4.20-rc2 убунтовское. Тоже невидия неработает. Но в принципе остальное вроде ок. Посижу пока на штеуде.

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Deleted

Может потому что в репах убунты дрова древние - 390.77?

На 4.18 каком-то работало, но сейчас поставил посленее 4.18.19 - нифига.

В итоге оставил пока 20-rc2 и включил Intel в prime. Подключил app и поставил из них дрова 415 - но еще не перезагружался. Работа.

Suntechnic ★★★★★
() автор топика
Последнее исправление: Suntechnic (всего исправлений: 1)
Ответ на: комментарий от Suntechnic

Нифига - 415 дрова негрузятся еще сильнее чем 390 :(

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

Есть смысл потестировать диск на заведомо стабильной системе (а-ля Centos).

До чего опустилось Lenovo. Ставить такие диски в недешевые машины — это сильно.

anonymous
()
Ответ на: комментарий от anonymous

Есть мнение что дело в ядре и Lenovo ниуиноватая. Вот пробую. поставил 4.20 но на нем не заводится драйвер nvidia. Как выяснилось nvidia 390 не поддерживает все что выше 4.18.x Но 415 тоже чо-то не пашет :(

Оно не сильно важно - видюха мне не очень-то и нужна - просто злит когда не работает.

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

Короче СМАРТ ответа на то срочно менять диск или еще поживет не даст?
Model=SanDisk SD8TB8U256G1001, FwRev=X4120101, SerialNo=170617804405
SanDisk

говорит же — меняй

annerleen ★★★★☆
()

e2fsck -Dfvy периодически прогоняй.

anonymous
()
Ответ на: комментарий от annerleen

SanDisk - это критическое состояние параметра? А что взять? У меня в большом компе Plextor M5 Pro, Crucial MX300 и SmartBuy Ignition 2 - все три пока работают. Ничего не могу плохого сказать даже о SB.

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

Plextor Pro серий, Samsung Pro серий могу рекомендовать, за 3 года как новенькие по тестам, за остальное не скажу.

annerleen ★★★★☆
()
Ответ на: комментарий от anonymous

Как вы себе представляете тестирование диска на чем-нибудь другом? Это случилось у меня дважды в течении недели после года эксплуатации. Поставить CentOS и сидеть на ней минимум неделю только для того чтобы протестить диск?

Suntechnic ★★★★★
() автор топика
Ответ на: комментарий от Suntechnic

LiveCD и основательно понасиловать файловую систему.

anonymous
()
Ответ на: комментарий от Suntechnic

Да не надо ничего делать. Ядро подновил? Вот и жди. Тут никто не представляет, как оно работает-то. Бэкап у тебя, я надеюсь, есть. ФС так просто рассыпаться даже на помирающем диске не должна, как минимум в dmesg ругань на невозможность записать файлы должна присутствовать. Ну и, как бы, ещё trim отрубить, ага. На всякий.

Deleted
()
Ответ на: комментарий от Suntechnic

Или ставь старое ведро, или пока туси на новом без невидии. Если это то, что я думаю - а это очень вероятно, то просто переждать. Естественно, в убунте будут дрова под те вёдра, которые идут из коробки... На 4.19 так или иначе всё будет работать, т.к. это ядрышко вылизанное, в особенности по сравнению с глюкаловом 4.18, только надо подождать...) Ну или самому дрова качать и накатывать, но это чревато другими проблемами.

Deleted
()
Ответ на: комментарий от anonymous

Диск в порядке с огромной долей вероятности. И проблема с диском если и есть - она плавающая, и так просто не обнаружится.

Deleted
()
Ответ на: комментарий от anonymous

Да нет, ему проблему надо решить. И что такого даст тестирование непосредственно диска на другой ОС - не понятно. Нет, ну если переустановить и поработать... Или как минимум прогонять тесты в том числе и на запись, но это какой-то изврат, тем более, ни в smart, ни в dmesg нет ничего, что указывало бы на явные проблемы именно с диском.

Deleted
()
Ответ на: комментарий от legolegs

Хм. Ну вот ядро не ругается на то, что не может прочитать какой-то сектор. Поэтому бэдблокс тоже всё прочитает... Судя по смарт тоже проблем нет.

Deleted
()
Ответ на: комментарий от Deleted

Ядро ругается только если получает отказ. А если данные где-то тихо портятся и теряются? У меня такое бывало.

legolegs ★★★★★
()
Ответ на: комментарий от legolegs

Тогда надо делать Write-read-verify по идее. Бэдблокс тоже не должен заметить на тесте только чтения.

Deleted
()

Можно ещё посмотреть, есть ли свежая прошивка на эту модель ssd.

greenman ★★★★★
()
Ответ на: комментарий от Deleted

с огромной долей вероятности

Давайте всем форумом гадать по бараньей лопатке.=)

Здесь многие знают, как оно работает. Если нечем заняться в выходные, то отладчик, strace в зубы — и вперед. Только этот диск выбросить не глядя будет дешевле. ТС не знает, поэтому есть смысл работать методом исключения. Основные подозреваемые — неоттестированное ядро и дешманское железо. На неделю не обязательно — можно на ночь поставить какой-нибудь intel iometer с паттерном ~50% записи, если что-то не так, он ФС попортит. А за неделю этот SSD можно в 0 ушатать хорошей нагрузкой.

Только есть мнение, что ТС просто заняться нечем, иначе бы он не ставил rc и прочие вчера вышедшие ядра, а безымянный диск выбросил бы сразу, чтобы не трахать себе мОзги.

anonymous
()
Ответ на: комментарий от anonymous

Мелкий пакет - это недорого, а большего там и не требуют, хоть для MicroSD, хоть для SSD

fcx ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.