LINUX.ORG.RU

Система виснет постепенно

 , ,


0

2

Уже на протяжении многих месяцев наблюдаю такое «медленное» зависание, которое случается время от времени...

Например, сижу я в огнелисе, и в некоторый момент перестаёт загружаться вкладка, при этом могу переключаться между разными вкладками, но ни одна из них не грузится. Могу переключиться на LXTerminal, но выполнить команду или открыть новую вкладку не могу. Потом через некоторое время только курсор движется, а потом и он «зависает». Сегодня такая фигня случилась три раза. Спасает только SysRq+REISUB. Обычно даже не могу переключиться в консоль по Alt+Ctrl+F1, но сегодня мне чудом удалось это сделать, но залогиниться в ней не удаётся. Зато можно вызвать OOM Killer'а, что я и проделал, ядро честно убило все процессы, сколько их было... Потом только SysRq+b.

Конечно, в логах девственная чистота...

По-видимому, это проблема с железом. Довольно давно такое случалось, но очень редко, а теперь с пугающей частотой. Такое ощущение, что с новой версией ядра всё чаще случается.

Ноут Acer Swift3. Система gentoo, systemd, lxqt. Ядро 4.19.97-gentoo #2 SMP PREEMPT x86_64 Intel(R) Core(TM) i3-6100U CPU @ 2.30GHz, самосборное.

Видимо, не память сбоит (иначе бы всё падало, думаю, но ядро всегда живое остаётся).

Возможно, с SSD диском проблемы. Вот что про него говорит fdisk и smartctl:

Диск /dev/sda: 119,2 GiB, 128035676160 байт, 250069680 секторов
Disk model: LITEON CV3-8D128
Единицы: секторов по 1 * 512 = 512 байт
Размер сектора (логический/физический): 512 байт / 512 байт
Размер I/O (минимальный/оптимальный): 512 байт / 512 байт
Тип метки диска: dos
Идентификатор диска: 0xa16fa575

Устр-во    Загрузочный    начало     Конец   Секторы Размер Идентификатор Тип
/dev/sda1  *                2048   1370111   1368064   668M            83 Linux
/dev/sda2                1370112  52602879  51232768  24,4G            83 Linux
/dev/sda3               52602880 245972991 193370112  92,2G            83 Linux
/dev/sda4              245972992 250068991   4096000     2G            82 Linux своп / Solaris
smartctl 7.0 2018-12-30 r4883 [x86_64-linux-4.19.97-gentoo] (local build)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     LITEON CV3-8D128
Serial Number:    KN1280L01663203123HC
Firmware Version: T871202
User Capacity:    128 035 676 160 bytes [128 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS, ATA/ATAPI-7 T13/1532D revision 4a
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sun Apr 19 23:00:02 2020 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(   10) seconds.
Offline data collection
capabilities: 			 (0x15) SMART execute Offline immediate.
					No Auto Offline data collection support.
					Abort Offline collection upon new
					command.
					No Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					No Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (  11) minutes.
SCT capabilities: 	       (0x003d)	SCT Status supported.
					SCT Error Recovery Control supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocated_Sector_Ct   0x0003   100   100   000    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       2739
 12 Power_Cycle_Count       0x0003   100   100   000    Pre-fail  Always       -       5824
177 Wear_Leveling_Count     0x0003   100   100   000    Pre-fail  Always       -       2878025
178 Used_Rsvd_Blk_Cnt_Chip  0x0003   100   100   000    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0003   100   100   000    Pre-fail  Always       -       0
182 Erase_Fail_Count_Total  0x0003   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0003   100   100   000    Pre-fail  Always       -       0
188 Command_Timeout         0x0003   100   100   000    Pre-fail  Always       -       2183
189 Unknown_SSD_Attribute   0x0003   100   100   000    Pre-fail  Always       -       2217
191 Unknown_SSD_Attribute   0x0003   100   100   000    Pre-fail  Always       -       1897
192 Power-Off_Retract_Count 0x0003   100   100   000    Pre-fail  Always       -       85
196 Reallocated_Event_Count 0x0003   100   100   000    Pre-fail  Always       -       0
198 Offline_Uncorrectable   0x0003   100   100   000    Pre-fail  Always       -       0
199 UDMA_CRC_Error_Count    0x0003   100   100   000    Pre-fail  Always       -       35
232 Available_Reservd_Space 0x0003   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0003   100   100   000    Pre-fail  Always       -       18453
241 Total_LBAs_Written      0x0003   100   100   000    Pre-fail  Always       -       6151
242 Total_LBAs_Read         0x0003   100   100   000    Pre-fail  Always       -       3687

SMART Error Log Version: 0
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%       841         -
# 2  Short offline       Completed without error       00%       840         -
# 3  Short offline       Completed without error       00%       840         -
# 4  Extended offline    Completed without error       00%       840         -
# 5  Extended offline    Interrupted (host reset)      10%       840         -

Selective Self-tests/Logging not supported

★★★★☆
Ответ на: комментарий от anonymous

не похоже, с графикой всё ок

Sahas ★★★★☆
() автор топика

Вангую отвал накопителя. Запусти dmesg -w в терминале заранее и посмотри, что выведет при зависании.

izzholtik ★★★
()

было такое на федоре. виновницей была плашка Kingston black fury, так что пробуй замену памяти

fresa
()
Ответ на: комментарий от izzholtik

да, похоже на то... Попробую отловить. Возможно, дело не в самом накопителе, а в его взаимодействии с ядром...

Sahas ★★★★☆
() автор топика
Ответ на: комментарий от Sahas

Судя по теме Один эпизод о достижениях современного глюководства memtest86+ может и не показать ничего при явных проблемах с памятью.

memtest86 от PassMark немного лучше, но и он не помог.

greenman ★★★★★
()
Последнее исправление: greenman (всего исправлений: 1)
Ответ на: комментарий от greenman

Да, поучительная история...

Надеюсь, до памяти не дойдёт... Сейчас грешу на laptop-mode, он периодически отключал SSD... Посмотрим, как без него будет работать.

Sahas ★★★★☆
() автор топика

«Ноут Acer» - Я только констатирую, да вы и сами это видите, что те кто советуют вам покупать асерские ноуты вашими друзьями не являются! В другой теме я про это подробнее писал. Ребята, вот если вы планируете купить ноут, чтобы потом на него линукс накатить, так создайте хардовскую тему на форуме! Никто вас за это не растреляет! И знающие люди вам подскажут, какая ситуация на текущем ноутовском и нетбучном фронте и не будете потом страдать пытаясь юзать … !

PahomUbuntu
()
Ответ на: комментарий от PahomUbuntu

Один из предыдущих ноутов был Acer, ни в чем предосудительным замечен не был... Этому уж три года.

Sahas ★★★★☆
() автор топика
Ответ на: комментарий от Sahas

Есть и исключения из достаточно объективной статистики. Мне и с дурными HP приходилось сталкиваться (DVD-приводы, встроенные видеокарты).

PahomUbuntu
()

Могу переключиться на LXTerminal, но выполнить команду или открыть новую вкладку не могу.

У меня было подобное — дурил контроллер диска, и диск отваливался. При этом сам диск был жив, в смарте было всё чисто.

debugger ★★★★★
()

Возможно, с SSD диском проблемы

разве в таком случае не должно быть соответствующих записей в dmesg?

SR_team ★★★★★
()
Ответ на: комментарий от SR_team

видимо, зависит от проблемы... В dmesg никаких ошибок нет, только иногда SSD перезапускается (из-за laptop-mode, как я понимаю). Я отключил эту фичу в laptop-mode, теперь время от времени пишет

[27989.194901] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[27989.198739] ata2.00: configured for UDMA/133
Sahas ★★★★☆
() автор топика
Последнее исправление: Sahas (всего исправлений: 1)

Та ж фигня, не часто, но время от времени. Прямо посреди работы, так что sleep дисков не при чём (разве что это совсем неактивный самсунг засыпает при выключенных торрентах; но так оно и виснуть начинает без обращения к нему). Мемтест чисто. Проявляется чаще всего как невозможность остановки никаких процессов: запуститься что-нибудь консольное (из-под уже открытой консоли) ещё сможет, гуёвое всякое разное работает – ровно до тех пор, пока не попытаешься его закрыть. Последний раз было буквально вчера: dmesg | less из-под юзера работает, из-под рута нет. В общем, хз на что грешить. Грешу на ядро.

dimgel ★★★★★
()
Ответ на: комментарий от debugger

«У меня было подобное — дурил контроллер диска, и диск отваливался. При этом сам диск был жив» - Вспомнил! Такое же было давным-давно на десктопе! Думал хана саташному HDD и зело опечалился. Поставил его на другой комп - А норм! Так что заменил саташный диск на идэешный и комп снова стал пахать. Чаще всего как раз блоки питания и материнки слабыми звеньями оказываются…

PahomUbuntu
()
Ответ на: комментарий от PahomUbuntu

А при чём тут блоки питания?

В моём случае блок питания точно не виноват был. На маме 6 саташных разьёмов — 4 порта от чипсета и 2 порта от дополнительного контроллера на маме. 4 порта от чипсета пахали без проблем, 2 дополнительных — работали какое-то время, потом начинали дурить.

Я долго за этой проблемой охотился, так как всё происходило на безголовом сервере. (Под «сервером» я подразумеваю выполняемые функции, а не серверное железо, железо как раз обычное, бытовое.) Сервер работал роутером, файл-сервером и торрентокачалкой. Вроде всё работает — интернет раздаёт, торренты качает, файлы шарит, а через ssh к серверу подключиться нельзя. После ребута всё работает, в логах никаких ошибок нет.

Помогло только подключение консоли к ком-порту и вывод сообщений ядара на эту консоль. Оказалось, что (по вине контроллера) отваливался диск, на котором была система (и логи). Все запущенные процессы продолжают работать, но ни одного нового процесса запустить нельзя (в том числе dmesg), а после ребута в логах чисто.

Вылечилось установкой дополнительной платы с сата-контроллером (самой дешовой китайской платы, купленной на ебее) и подключения диска к ней. Все диски все остались прежними, появилась ещё одна плата — то есть нагрузка на БП только увеличилась. Но таких вот глюков больше не было.

debugger ★★★★★
()
Последнее исправление: debugger (всего исправлений: 1)
Ответ на: комментарий от SR_team

разве в таком случае не должно быть соответствующих записей в dmesg?

Должны, но чтобы их увидеть, надо запустить dmesg, в то время как:

Могу переключиться на LXTerminal, но выполнить команду или открыть новую вкладку не могу.

Поэтому надо запускать dmesg -w заранее и ждать.

debugger ★★★★★
()

Удалось отследить момент, когда начинается зависание.

dmesg -w написал примерно следующее:

[ 1804.583105] sd 1:0:0:0: [sda] Synchronizing SCSI cache
[ 1804.584408] sd 1:0:0:0: [sda] Stopping disk

После этого всё.

В данном случае, похоже, происходило следующее: в процессе активного emerge -vauD world я решил перевести систему в suspend посредством закрытия крышки ноута. Suspend не прошёл, я открыл крышку и увидел указанные выше слова. По-видимому, кто-то послал команду диску застопиться, но из-за каких-то проблем в связи с активной его работой что-то пошло не так...

Sahas ★★★★☆
() автор топика
Последнее исправление: Sahas (всего исправлений: 1)

Тоже такое наблюдал у себя на SSD Amd.
Сильно не разбирался. Перенес var и swap на обычный диск. Полет нормальный. Больше, за месяц, ни разу не подвисал, при том, что он в режиме гибридного засыпания фунциклирует.

TomBOY ★★
()
Ответ на: комментарий от anonymous

такая ситуация не только при suspend'е возникает

Sahas ★★★★☆
() автор топика

Остановил (а потом и совсём снёс) laptop-mode. Диск перестал стопиться время от времени. Аптайм 8 дней, с периодическим suspend и hibernate.

Продолжаю наблюдение...

Sahas ★★★★☆
() автор топика
Последнее исправление: Sahas (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.