LINUX.ORG.RU

Забавный баг с удалённой машиной. Что с ней случилось и как исправить?


0

0

По ssh вход работает. Все встроенные bash-команды (ls, cat, less) выполняются на ура. Любые внешние программы выдают:

# reboot
-bash: /sbin/reboot: Ошибка ввода/вывода

cat/less на /var/log/dmesg не показывают в нём ничего странного. Последние записи с момента загрузки.

/var/log/everything/current не показывает, вроде, криминала. Правда, вчера машину интенсивно ломали по ssh по словарю. Но когда она заглючила - х.з., я на неё с 14-го числа не заходил.

Есть мысли, что это такое?

★★★★★

Права-то на устройства ввода-вывода и на сами файлы на месте? ld, прочие либы не изменены?

name_no ★★
()

И почему это в толксах? Потому что Линукс не готов для десктопа? ))

name_no ★★
()

Да-да-да, chkrootkit спасет отца русской демократии

FatBastard ★★
()
Ответ на: комментарий от FatBastard

Не-а:

# cat /sbin/reboot >/dev/null cat: /sbin/reboot: Ошибка ввода/вывода

...

Кстати, попытка записать говорит, что FS только для чтения:

# echo 111 > /111 -bash: /111: Файловая система доступна только для чтения

Так на разделах «/», «/usr», «/var». А вот на «/home» всё хорошо.

UUID=be94a682-17af-4f5f-9964-7e9ee5ed513e	/		auto		noatime		0 1		# /dev/sda2
UUID=2bbad5db-52a9-4877-b591-416dfd836e81	/boot	auto		noauto,noatime	1 2	# /dev/sda1
UUID=31e02424-a9bf-43c5-a76f-f4e5b6f801d8	/home	auto		noatime		0 1		# /dev/sda4
UUID=e5ec8ee5-b446-40b3-813d-cebd0c9b5efd	/var	auto		noatime		0 1		# /dev/sda3
KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от Sylvia
ls -l /proc/self/fd/
итого 0
lrwx------ 1 root root 64 Окт 19 11:01 0 -> /dev/pts/0
lrwx------ 1 root root 64 Окт 19 11:01 1 -> /dev/pts/0
lrwx------ 1 root root 64 Окт 19 11:01 2 -> /dev/pts/0
lr-x------ 1 root root 64 Окт 19 11:01 3 -> /proc/2502/fd
KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от name_no

>Права-то на устройства ввода-вывода и на сами файлы на месте?

На файлы - на месте:

# ls -l /sbin/halt
-rwxr-xr-x 1 root root 14576 Окт 8 11:54 /sbin/halt

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от DerKetzer

>У меня было что-то подобное, когда диск отваливался постепенно.

Тогда обычно в dmesg много мусора.

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от FatBastard

А точно в логах пусто?

Если в /var/log/everything/current есть свежие записи, то, судя по всему, с самой FS всё ок:

...

Тьфу, я тормоз. Не на той машине смотрел. dmesg тут, действительно, чист. А вот в everything такое:

Oct 18 21:06:52 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff8801ff069980)
Oct 18 21:06:52 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x2a: 2a 00 03 e8 79 3e 00 00 08 00
Oct 18 21:06:52 [kernel] mptscsih: ioc0: WARNING - TM Handler for type=1: IOC Not operational (0xffffffff)!
Oct 18 21:06:52 [kernel] mptscsih: ioc0: WARNING -  Issuing HardReset!!
Oct 18 21:06:52 [kernel] mptbase: ioc0: Initiating recovery
Oct 18 21:06:52 [kernel] mptbase: ioc0: WARNING - Unexpected doorbell active!
Oct 18 21:06:52 [kernel] sd 4:0:0:0: mptscsih: ioc0: completing cmds: fw_channel 0, fw_id 0, sc=ffff8801ff069480, mf = ffff88022e204280, idx=35
Oct 18 21:06:52 [kernel] sd 4:0:0:0: mptscsih: ioc0: completing cmds: fw_channel 0, fw_id 0, sc=ffff88022e6f4980, mf = ffff88022e206880, idx=81
Oct 18 21:06:52 [kernel] sd 4:0:0:0: mptscsih: ioc0: completing cmds: fw_channel 0, fw_id 0, sc=ffff88022e6f4880, mf = ffff88022e208580, idx=bb
Oct 18 21:06:52 [kernel] sd 4:0:0:0: mptscsih: ioc0: completing cmds: fw_channel 0, fw_id 0, sc=ffff8801ff069180, mf = ffff88022e209f00, idx=ee
Oct 18 21:06:52 [kernel] sd 4:0:0:0: mptscsih: ioc0: completing cmds: fw_channel 0, fw_id 0, sc=ffff8801ff069980, mf = ffff88022e20fc00, idx=1a8
Oct 18 21:07:52 [kernel] mptbase: ioc0: WARNING - ResetHistory bit failed to clear!
Oct 18 21:07:52 [kernel] mptbase: ioc0: ERROR - Diagnostic reset FAILED! (ffffffffh)
Oct 18 21:07:52 [kernel] mptbase: ioc0: WARNING - NOT READY!
Oct 18 21:07:52 [kernel] mptbase: ioc0: WARNING - Cannot recover rc = -1!
Oct 18 21:07:52 [kernel] mptscsih: ioc0: WARNING - TMHandler: HardReset FAILED!!
Oct 18 21:07:52 [kernel] mptscsih: ioc0: task abort: FAILED (sc=ffff8801ff069980)
Oct 18 21:07:52 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff88022e6f4880)
Oct 18 21:07:52 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x2a: 2a 00 03 e8 f4 c6 00 00 08 00
Oct 18 21:07:52 [kernel] mptscsih: ioc0: task abort: SUCCESS (sc=ffff88022e6f4880)
Oct 18 21:08:02 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff88022e6f4880)
Oct 18 21:08:02 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x0: 00 00 00 00 00 00
Oct 18 21:08:02 [kernel] mptscsih: ioc0: task abort: SUCCESS (sc=ffff88022e6f4880)
Oct 18 21:08:02 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff88022e6f4980)
Oct 18 21:08:02 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x2a: 2a 00 03 ed 30 76 00 00 08 00
Oct 18 21:08:02 [kernel] mptscsih: ioc0: task abort: SUCCESS (sc=ffff88022e6f4980)
Oct 18 21:08:12 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff88022e6f4980)
Oct 18 21:08:12 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x0: 00 00 00 00 00 00
Oct 18 21:08:12 [kernel] mptscsih: ioc0: task abort: SUCCESS (sc=ffff88022e6f4980)
Oct 18 21:08:12 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff8801ff069480)
Oct 18 21:08:12 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x2a: 2a 00 03 f0 68 36 00 00 08 00
Oct 18 21:08:12 [kernel] mptscsih: ioc0: task abort: SUCCESS (sc=ffff8801ff069480)
Oct 18 21:08:14 [named] client 94.25.128.68#7031: query (cache) 'www.goodfly.ru/A/IN' denied
Oct 18 21:08:15 [named] client 94.25.208.69#33011: query (cache) 'www.goodfly.ru/A/IN' denied
Oct 18 21:08:22 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff8801ff069480)
Oct 18 21:08:22 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x0: 00 00 00 00 00 00
Oct 18 21:08:22 [kernel] mptscsih: ioc0: task abort: SUCCESS (sc=ffff8801ff069480)
Oct 18 21:08:22 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff8801ff069180)
Oct 18 21:08:22 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x2a: 2a 00 03 fa 39 de 00 00 08 00
Oct 18 21:08:22 [kernel] mptscsih: ioc0: task abort: SUCCESS (sc=ffff8801ff069180)
Oct 18 21:08:32 [kernel] mptscsih: ioc0: attempting task abort! (sc=ffff8801ff069180)
Oct 18 21:08:32 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x0: 00 00 00 00 00 00
Oct 18 21:08:32 [kernel] mptscsih: ioc0: task abort: SUCCESS (sc=ffff8801ff069180)
Oct 18 21:08:32 [kernel] mptscsih: ioc0: attempting target reset! (sc=ffff8801ff069980)
Oct 18 21:08:32 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x2a: 2a 00 03 e8 79 3e 00 00 08 00
Oct 18 21:08:32 [kernel] mptscsih: ioc0: target reset: FAILED (sc=ffff8801ff069980)
Oct 18 21:08:32 [kernel] mptscsih: ioc0: attempting bus reset! (sc=ffff8801ff069980)
Oct 18 21:08:32 [kernel] sd 4:0:0:0: [sda] CDB: cdb[0]=0x2a: 2a 00 03 e8 79 3e 00 00 08 00
Oct 18 21:08:35 [named] client 83.169.185.33#46884: query (cache) 'goodfly.ru/A/IN' denied
Oct 18 21:08:35 [named] client 83.169.185.33#43016: query (cache) 'goodfly.ru/A/IN' denied
Oct 18 21:08:43 [kernel] mptscsih: ioc0: bus reset: FAILED (sc=ffff8801ff069980)
Oct 18 21:08:43 [kernel] mptscsih: ioc0: attempting host reset! (sc=ffff8801ff069980)
Oct 18 21:08:43 [kernel] mptbase: ioc0: Initiating recovery
Oct 18 21:08:43 [kernel] mptbase: ioc0: WARNING - Unexpected doorbell active!
Oct 18 21:08:46 [named] zone wikilinks.ru/IN: refresh: retry limit for master 85.30.226.178#53 exceeded (source 0.0.0.0#0)
Oct 18 21:08:46 [named] zone wikilinks.ru/IN: Transfer started.

Походу, проблема с контроллером. Странно только, что /home работает, а другие разделы на том же винте и контроллере - нет...

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от FatBastard

>И повторюсь про chkrootkit

И?

# chkrootkit
-bash: chkrootkit: команда не найдена

# emerge chkrootkit
emergelog(): [Errno 30] Read-only file system: '/var/log/emerge.log'
emergelog(): [Errno 30] Read-only file system: '/var/log/emerge.log'
...

А и был бы установлен - неужто он бы запустился, если даже reboot не запускается?

KRoN73 ★★★★★
() автор топика

Через /proc машину никак не ребутнуть?

sync через

echo 3 > /proc/sys/vm/drop_caches

, вроде, работает.

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

Ну, попытаться-то перезагрузить всегда можно. Но, неизвестно, выйдет ли машина из перезагрузки. И, боюсь, концы исчезнут и будет непонятно, что глючило. Куда бы пока ещё поковыряться в поиске причины.

...

Хм. Пока это писал - ssh разорвался. Странно :)

Вроде ж, echo 1 > /proc/sys/kernel/sysrq не должно делать рестарт. Да ещё отложенный секунд на 20...

KRoN73 ★★★★★
() автор топика

Хм. Всё страньше... Машина явно не в рестарте. Пингуется. Судя по всему, ssh отвалился, а в рестарт не ушла. Придётся звонить хостеру, чтобы перезагрузили жёстко...

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

Тьфу пиля, chkrootkit ваще на sh написан.. А в комплекте к нему бинари идут, насколько я понял просто какие-то плагины-проверяльщики. /bin/sh ты бы тоже не смог наверное прочитать, так что бесполезно

FatBastard ★★
()

Всё, перезагрузили. Сейчас с виду всё ок работает. Ставлю для начала app-forensics/chkrootkit :)

...

Но, вообще, это всё мне пока мало нравится. Новая, только что поставленная система без нагрузки :-/

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от Black_Shadow

Значит, мне везло на такое не натыкаться :)

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

У меня был эпичный случай, когда систему убивал какой-то бакэнд капса(для HP вроде). Подробностей не помню, вроде съедалась вся память и проц, запустить что-либо новое, например kill или reboot, не удавалось, хотя некотороые команды отрабатывали. Но ошибок i/o при этом вроде не было.

madcore ★★★★★
()
Ответ на: комментарий от FatBastard

>А что, по /bin/sh?

В линуксах это типично симлинк на bash

madcore ★★★★★
()

Checking `lkm'... You have 2 process hidden for readdir command You have 2 process hidden for ps command chkproc: Warning: Possible LKM Trojan installed

?

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

Не знаю как под линуксами, а так вроде фигня, у меня часто по этому пункту ложные срабатывания

FatBastard ★★
()

Оп-па.

# ls -l /etc/bind/sec/
итого 12
-rw------- 1 named named 548 Сен 19  2008 db-AQD8Qu0l
-rw------- 1 named named 438 Сен 19  2008 db-Na3REJBm
-rw------- 1 named named 418 Сен 19  2008 db-Xsa9osft

Там были нормальные файлы: sociowiki.ru.hosts, wikilinks.ru.hosts, wikiznanie.ru.hosts...

Очень странно :-/ Неужели ext4 так дурит? Но пара месяцев на двух других машинах, в т.ч. под высокой нагрузкой, никаких проблем не вызвала. Правда, на тех машинах 32 бита, а на сабже - 64...

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

Хм. Никаких других изменений в системе не вижу.

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от tzukko

>Ну, ты экстремал, таки!

Не... Был бы экстремалом, я бы reiser4 поставил :)

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

> Отправил провайдеру запрос на перезагрузку.

Вот, вот именно поэтому не надо хоститься в СНГшных датацентрах.

http://pic.ipicture.ru/uploads/091019/K2j9qYNHy5.png

+ халявный KVM 2 раза по часу в неделю, через браузер (через ява-приложение)

+ возможность загрузить машину, используя rescue-cd (точнее, не cd, а удалённый корень, но не суть) — там можно систему переустановить, на руткиты просканироваться, железо проверить и т.п., в общем счастие

+гораздо дешевле

Obey-Kun ★★★★★
()
Ответ на: комментарий от KRoN73

Такие ошибки говорят что либо ФС глюканула (баги в драйвере, логические ошибки на фс) и перемонтировалась в ro, либо возможно ошибка в какой-то из подсистем ниже (драйвер контроллера, lvm, софт-рейд, етц), либо железо.
Чтобы это ни было, это вызвало перемонтирование фс в ro, о чём говорит сообщение "Read-only file system"

Nao ★★★★★
()
Ответ на: комментарий от Obey-Kun

>халявный KVM 2

KVM у меня в сервере встроенный. Только я подключать не стал его, лишнего IP жалко :)

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

>KVM у меня в сервере встроенный. Только я подключать не стал его, лишнего IP жалко :)

А шо за железка? Почем влетела? (Сорри за оффтоп.)

nnz ★★★★
()
Ответ на: комментарий от nnz

>А шо за железка?

http://www.linux.org.ru/view-message.jsp?msgid=4136107

>Почем влетела?

За рекламу спонсора :) А так, по накладной, 56526руб. В принципе, мы когда сами брать хотели, то ориентировались на такое: http://bal.livejournal.com/211834.html

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от KRoN73

KVM у меня в сервере встроенный. Только я подключать не стал его, лишнего IP жалко :)

Мне немцы 128 ипов за 40 баксов дали (и плачу 15 евро в месяц) :)

Obey-Kun ★★★★★
()

Я извиняюсь, конечно, за глупый вопрос, но ты фирмвари все обновлял перед отвозом сервера на коло?

Deleted
()

Опять, блин, та же фигня.

То ли контроллер глючит, то ли винт, то ли ext4... И фиг поймёшь, в чём дело.

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от Deleted

>Я извиняюсь, конечно, за глупый вопрос, но ты фирмвари все обновлял перед отвозом сервера на коло?

Не-а. В голову не пришло. Железо новое совсем, вроде :)

KRoN73 ★★★★★
() автор топика
Ответ на: комментарий от iZEN

>LSI MPT такое mpt...

Расшифруй. Что тут можно сделать?

KRoN73 ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.