LINUX.ORG.RU
ФорумAdmin

Падение серверов, необьяснимые причины


0

2

Имеется два сервера на базе BSD 9.1 Stable, на платформе Supermicro. Конфиг простой, 2 ядра, 24 и 32 ядер, 64 памяти. Проблема в том что второй день подрят по очереди они упали, и это очень печально. Записи в логах полностью отсутсвуют, видно что до какого-то момент система работала полностью корректно и ничего лишнего, потом все, те удаленные сессии по ssh которые висели после набора какой либо комманды замирали. На пинги сервера отвечали, все остальное внутри мертвое. Ресет естественно помогает, но тут сталкиваемся со следующим:

Разлет gmirror масива, проверка системы на fsck порядка 5-8 часов и тут же система ребилдит масив из-за этого диски нагружены по самые не могу (это к стати отдельный вопрос, как отключить синхронизацию между дисками пока не пройдет fsck).

На серверах стоит самая глючная панель VdsManager. Может кто подскажет куда можно еще заглянуть и копнуть?

Ответ на: комментарий от Deathstalker

message, как видно, работает тихо спокойно sudo и потом бац. Система также нормально отреагировала на подключение КВМ, но вот выполнять команды не дала.

May 11 13:22:15 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:22:16 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:22:17 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:22:17 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:22:18 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:22:18 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:22:21 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:22:33 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:23:38 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:23:40 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:23:48 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc
May 11 13:24:01 src59 sudo:   zabbix : TTY=unknown ; PWD=/ ; USER=root ; COMMAND= exim -bpc

May 11 14:06:28 src59 kernel: ugen0.2: <ATEN> at usbus0
May 11 14:06:28 src59 kernel: ukbd0: <HID Keyboard> on usbus0
May 11 14:06:28 src59 kernel: kbd2 at ukbd0
May 11 14:06:28 src59 kernel: ums0: <HID Mouse> on usbus0
May 11 14:06:28 src59 kernel: ums0: 5 buttons and [XYZ] coordinates ID=0

May 11 20:14:38 src59 syslogd: kernel boot file is /boot/kernel/kernel.vds
May 11 20:14:38 src59 kernel: Copyright (c) 1992-2013 The FreeBSD Project.
May 11 20:14:38 src59 kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994
May 11 20:14:38 src59 kernel: The Regents of the University of California. All rights reserved.
May 11 20:14:38 src59 kernel: FreeBSD is a registered trademark of The FreeBSD Foundation.
May 11 20:14:38 src59 kernel: FreeBSD 9.1-STABLE #0 r61: Mon Apr 22 14:16:33 IRKT 2013
May 11 20:14:38 src59 kernel: root@kernel-build-9-amd64.ispsystem.net:/root/src/sys/amd64/compile/ISPSYSTEM amd64
May 11 20:14:38 src59 kernel: gcc version 4.2.1 20070831 patched [FreeBSD]
May 11 20:14:38 src59 kernel: CPU: AMD Opteron(tm) Processor 6376                  (2300.06-MHz K8-class CPU)
May 11 20:14:38 src59 kernel: Origin = "AuthenticAMD"  Id = 0x600f20  Family = 0x15  Model = 0x2  Stepping = 0
May 11 20:14:38 src59 kernel: Features=0x178bfbff<FPU,VME,DE,PSE,TSC,MSR,PAE,MCE,CX8,APIC,SEP,MTRR,PGE,MCA,CMOV,PAT,PSE36,CLFLUSH,MMX,FXSR,SSE,SSE2,HTT>
May 11 20:14:38 src59 kernel: Features2=0x3e98320b<SSE3,PCLMULQDQ,MON,SSSE3,FMA,CX16,SSE4.1,SSE4.2,POPCNT,AESNI,XSAVE,OSXSAVE,AVX,F16C>
May 11 20:14:38 src59 kernel: AMD Features=0x2e500800<SYSCALL,NX,MMX+,FFXSR,Page1GB,RDTSCP,LM>
May 11 20:14:38 src59 kernel: AMD Features2=0x1ebbfff<LAHF,CMP,SVM,ExtAPIC,CR8,ABM,SSE4A,MAS,Prefetch,OSVW,IBS,XOP,SKINIT,WDT,LWP,FMA4,<b17>,NodeId,TBM,Topol
ogy,<b23>,<b24>>
May 11 20:14:38 src59 kernel: Standard Extended Features=0x8
May 11 20:14:38 src59 kernel: TSC: P-state invariant, performance statistics

dmesg.today забит мусором.

check prison for ipfw jid=25 flag=60001ce
check prison for ipfw jid=26 flag=78001ce
check prison for ipfw jid=27 flag=68001ce
check prison for ipfw jid=28 flag=60001ce
check prison for ipfw jid=29 flag=70001ce
check prison for ipfw jid=30 flag=60001ce
check prison for ipfw jid=31 flag=68001ce
check prison for ipfw jid=32 flag=78001ce
check prison for ipfw jid=33 flag=60001ce
check prison for ipfw jid=34 flag=68001ce
check prison for ipfw jid=35 flag=70001ce
check prison for ipfw jid=36 flag=60001ce
check prison for ipfw jid=37 flag=78001ce
check prison for ipfw jid=38 flag=60001ce
check prison for ipfw jid=39 flag=78001ce
check prison for ipfw jid=40 flag=60001ce
check prison for ipfw jid=41 flag=78001ce
check prison for ipfw jid=42 flag=70001ce
check prison for ipfw jid=43 flag=70001ce
check prison for ipfw jid=44 flag=60001ce
check prison for ipfw jid=45 flag=78001ce
check prison for ipfw jid=46 flag=60001ce
check prison for ipfw jid=47 flag=78001ce
check prison for ipfw jid=48 flag=60001ce

InventoR
() автор топика
Ответ на: комментарий от Deathstalker

пустой, только запись о boot time и подключение админа на консоль.

InventoR
() автор топика

Нам предлагается на кофейной гуще погадать?

Как давно эти сервера стоят? Что там крутится? Что делали перед тем, как они стали падать? Мемтест прогоняли? Если что-то типа top запустить в консоле, то что показывать будет перед падением? А если что-то типа tail -f messages или dmesg?
Ну а если из своего, один раз сетевые таким образом глючили.

Mr_Alone ★★★★★
()
Ответ на: комментарий от Mr_Alone

К сожалению сам нахожусь в такой же кофейной гуще и пытаюсь хотя бы минимально понять в чем может быть причина такого неадекватного поведения. Понимаю когда глючит один серв, но сервера новые, им от роду пара месяцев, на них работают клиенты, jail.

Ничего не делали с ними, они просто работали, по графикам нагрузка минимальная, подрыва памяти нету, нагрузка на диски и цпу в минимуме. Memtest не можем прогнать, для этого надо останавливать систему что не реально.

Запуск любой комманды при уже запущенной до проблемы ssh ссесии приводил к подвисанию сеанса, попытка логина в систему с физической консоли приводила к подвисанию процеса логина, хотя на теже Enter система отвечела и переводила курсор на новую строку.

На обоих серверах материнки supermicro, System Information Manufacturer: Supermicro Product Name: H8DGU Version: 1234567890

InventoR
() автор топика
Ответ на: комментарий от InventoR

Мб по квм посмотреть, что на экране во время зависания?
У меня с openvz -> когда kernel panic ловил -> в логах ничего, сервер не отвечает.

poiuty
()
Ответ на: комментарий от Pinkbyte

Все впорядке, все винты новые, смарт абсолютно чистый, на каждом из серверов винты различных производителей.

InventoR
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.