LINUX.ORG.RU
ФорумAdmin

Как в логах найти причину ребута\выключения?

 , , , ,


0

1

Всем привет. Командой $last -x смотрю лог работы, вижу что было падение системы Sat Aug 6 01:10 - crash:

sadmin   pts/0        192.168.4.58     Sat Aug  6 22:09 - 10:50 (1+12:41)
runlevel (to lvl 5)   5.15.0-43-generi Sat Aug  6 22:01   still running
sadmin   :0           :0               Sat Aug  6 22:01   still logged in
reboot   system boot  5.15.0-43-generi Sat Aug  6 22:01   still running
sadmin   :0           :0               Sat Aug  6 20:14 - 20:14  (00:00)
sadmin   pts/0        192.168.4.58     Sat Aug  6 17:41 - 21:05  (03:23)
sadmin   pts/0        192.168.4.58     Sat Aug  6 17:40 - 17:40  (00:00)
runlevel (to lvl 5)   5.15.0-43-generi Sat Aug  6 17:29 - 22:01  (04:31)
sadmin   :0           :0               Sat Aug  6 17:29 - 20:14  (02:44)
reboot   system boot  5.15.0-43-generi Sat Aug  6 17:29   still running
sadmin   :1           :1               Sat Aug  6 01:10 - crash  (16:18)

sadmin   pts/2        192.168.4.58     Fri Aug  5 10:17 - 15:43  (05:25)
sadmin   pts/1        192.168.4.58     Fri Aug  5 10:17 - 15:43  (05:26)
sadmin   pts/0        192.168.4.58     Fri Aug  5 10:11 - 15:43  (05:31)
runlevel (to lvl 5)   5.15.0-43-generi Fri Aug  5 10:07 - 17:29 (1+07:22)
sadmin   :0           :0               Fri Aug  5 10:06 - crash (1+07:22)
reboot   system boot  5.15.0-43-generi Fri Aug  5 10:06   still running

В логе /var/log/syslog смотрю около времени краша много всего 1230 строк лога (сюда не вставляю, так как cut на сайте у вас не работает).

Как проанализировать syslog, чтоб понять примерную причину краша?

Да, и почему $last -x показывает до 6го числа, если я сегодня 8го его запрашиваю?



Последнее исправление: sin4ez (всего исправлений: 2)

Ну, и смотри, что в сислоге было сразу перед ребутом. Если там ничего нет, лезь в /sys/fs/pstore, что-то может быть там, но в своеобразном формате — куски dmesg. Надо найти такой, чтобы «Ооps#» был минимальным, а «Part» для этого oops’а — максимальной, и смотреть эти parts в обратном порядке. Ну, вот, к примеру, у меня в последний раз было в EFI pstore: «Oops#1 Part18», но причина паники — «general protection fault» — только в «Oops#1 Part4». Возможно, существуют какие-то тулзы для автоматической склейки этого добра в удобоваримый лог.

alegz ★★★★
()
Ответ на: комментарий от alegz

Смотреть надо, по времени, в моем случае на все, что было до Aug 6 01:10? У меня в журнале Aug 6 00:59:00 пять событий, Aug 6 00:47:06 с пару десятков, а вот начиная с Aug 6 01:07:05 долбится в сеть и потом:

Aug 6 01:08:24 sadmin-t-a systemd[1]: NetworkManager-dispatcher.service: Unexpected error response from GetNameOwner(): Connection terminated 
Aug 6 01:08:53 sadmin-t-a systemd[1]: Starting Network Manager Script Dispatcher Service… 
и куча строк до Aug 6 01:47:04

sin4ez
() автор топика
Ответ на: комментарий от sin4ez

ну т.е. посмотреть а уж показать что действительно с носителем[и] мы стесняемся, вместо этого флудим на лоре. Удачи.

anc ★★★★★
()
Ответ на: комментарий от anc

Чего с носителем, жив себе, работает с 6го числа дальше.

Model Number:                       SAMSUNG MZ1LB1T9HALS-00007
Firmware Version:                   EDA7602Q
Total NVM Capacity:                 1 920 383 410 176 [1,92 TB]
Namespace 1 Size/Capacity:          1 920 383 410 176 [1,92 TB]
Namespace 1 Utilization:            395 933 716 480 [395 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Mon Aug  8 15:18:47 2022 MSK
Firmware Updates (0x17):            3 Slots, Slot 1 R/O, no Reset required
Optional Admin Commands (0x000f):   Security Format Frmw_DL NS_Mngmt
Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     86 Celsius
Critical Comp. Temp. Threshold:     87 Celsius
Namespace 1 Features (0x02):        NA_Fields

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.00W       -        -    0  0  0  0        0       0

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0
 1 -    4096       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        48 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    2%
Data Units Read:                    244 445 716 [125 TB]
Data Units Written:                 698 350 632 [357 TB]
Host Read Commands:                 6 879 548 869
Host Write Commands:                12 889 762 197
Controller Busy Time:               9 746
Power Cycles:                       471
Power On Hours:                     2 850
Unsafe Shutdowns:                   358
Media and Data Integrity Errors:    0
Error Information Log Entries:      513
Warning  Comp. Temperature Time:    1826
Critical Comp. Temperature Time:    234
Temperature Sensor 1:               48 Celsius
Temperature Sensor 2:               55 Celsius
Temperature Sensor 3:               66 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0        513     0  0x1012  0x4004      -            0     0     -

Или что на 513 ошибок надо внимание обратить?

sin4ez
() автор топика
Ответ на: комментарий от anc

Да, если честно. Именно опыты. Машина не для работы сейчас, а для отработки работоспособности железа.

sin4ez
() автор топика
Ответ на: комментарий от sin4ez

Т.е. вы сознательно три раза в день по ресету отправляете тачку в ребут и спрашиваете ЛОР ШЯДНТ?

anc ★★★★★
()
Ответ на: комментарий от anc

Как проанализировать syslog, чтоб понять примерную причину краша?

Вот это был вопрос. И количество ресетов в день несколько преувеличено. Если в статистике 471 раз включен был nvme за 37 дней, то есть 12 раз в день, то это не значит что я сижу и каждый полчаса ресечу его. Не знаю даже откуда такая цифра взялась. Самое элементарное, если его рубит система как-то, например когда я юзаю stress-ng.

sin4ez
() автор топика
Ответ на: комментарий от anc

Я предположил, что nvme «рубит система как-то, например когда я юзаю stress-ng». Думаю у вас предположений никаких нет, раз кроме гипотезы, что я раз в полчаса ресечу нет ничего, домохозяйки они такие, друг про дружку всё-то знаю как им вздумается).

Как проанализировать syslog, чтоб понять примерную причину краша?

sin4ez
() автор топика
Ответ на: комментарий от no-dashi-v2

А может БП подыхает и рубит питалово

На nvme? Нюанс может конечно быть, но я ставлю на банальщину.

anc ★★★★★
()
Ответ на: комментарий от anc

Я так на все вопросы связанные с кодом отвечаю. Чисто по приколу.

Vasilion
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.