LINUX.ORG.RU

Подвисает Atom ITX во время длительной работы rm в ZFS директории

 ,


0

1

ZFS используется в основном только ради зеркала и снэпшотов ну и в общем для унификации, сколько-нибудь значительной нагрузки на дисковую подсистему нет, оперативки 4 гига, обычно свободно примерно половина оперативки.

Диски - древние, пара почти одинаковых Seagate Momentus 80G в zmirror.

До недавнего времени эта шарманка работало относительно стабильно, но недавно после перезагрузки комп начал попискивать, сначала думал, что-то с материнкой, потому пошевелил SATA шлейф - и писки прекратились, пошла загрузка.

После этого компик стал еженочно подвисать во время rm в каталоге с большим количеством мелких файлов.

Сразу же после запуска rm появляются сообщения примерно такого содержания:
kernel «BUG: soft lockup - CPU#1» «stuck for 22s!».

Debian Jessie 8.x latest
пробовал ядра: 4.5, 3.16 - разницы никакой

подобное гуглится: https://www.google.com/search?as_q="BUG: soft lockup - CPU#1" "stuck for 22s!...

По словам Behlendorf «где-то что-то тормозит и мешает ZFS».

Я такого никогда раньше не видел ни на одном компе.

С моей точки зрения виноват один из SATA интерфейсов или дисков.

Припоминаю, как то давно однажды неудачно схватил один из этих дисков во время его работы, было не до осторожности, да и стоимость у него копеечная, обычно при низкой стоимости и доступности запчастей в первую очередь экономлю свое время.

Крышка легко продавливается, он завизжал, наверно своей механикой, но скорее всего не поверхностью, потому что bad блоков нет, ремапов тоже нет, поверхности по смарту у обоих дисков чистые, но очень много Hardware_ECC_Recovered, причем у одного из дисков на порядок больше другого.

Утилизация дисков около 5% иногда всплески до 50%.

dstat почти по нулям показывает при этом каждые 5 минут сыпятся сообщения soft lockup - CPU#1" «stuck,

Через несколько часов шарманка виснет.

Из идей:

1) Поменять шлейф SATA, диска, предположительно который попискивал на старте.

2) Попробовать на одтельных частях зеркала без второго диска.

Ну и вопрос как обычно в том, что делать :)

★★

Последнее исправление: sanyock (всего исправлений: 8)

Экий ты длиннорукий. Ну сам же говоришь, что механику порушил. Там кроме блинов есть еще и привод головок, который часто дрыгается именно на куче мелких файлов. Видимо, ты ему привод и свернул.

anonymous
()
Ответ на: комментарий от anonymous

А делать надо: собрать бутылок возле работы, сдать и купить что-нибудь новое. За день можно насобирать на ssd такого же объема.

anonymous
()

У меня частенько при загрузке пищит 2.5" seagate на 250ГБ после длительного «неперетыкания» сата шлейфов, не знаю что там окисляется, но после пары тыков его писки проходят.

Deleted
()
Ответ на: комментарий от greenman

Ну, можно еще продать информацию с этих дисков, пока они окончательно не отключились, а на вырученные деньги купить новые. Вполне айтишно.

anonymous
()
Ответ на: комментарий от anonymous

Ну, можно еще продать информацию с этих дисков

1) кому она нужна?
2) я не хочу ее продавать, это моя персональная информация

пока они окончательно не отключились

1) они в зеркале
2) есть бэкапы на другом зеркале

а на вырученные деньги купить новые.

можно и на другие деньги купить новые

да и так есть другие диски, которые можно поставить на место плохого, зачем покупать?

вопрос еще в том, что действительно ли в дисках дело?
может быть, еще в разъемах SATA
по идее можно вытащить каждый по очереди погонять badblocks

Вполне айтишно.

очень любопытно, наверно всем было бы интересно взглянуть на личную страницу автора такого поста, особенно интересно службе безопасности его работодателя, если он где-то работает

sanyock ★★
() автор топика
Последнее исправление: sanyock (всего исправлений: 1)
Ответ на: комментарий от sanyock

а мой такую же ересь выдает,
они у сигейта там свои понятия о параметрах имеют.

так что отформать и подрыгай кабельочки, может и попустит.

Deleted
()
Ответ на: комментарий от sanyock

Еще такой старый анекдот есть, английский:

- А вы знаете, что делают шотландцы со старыми бритвами?

- А что они с ними делают?

- Они ими бреются.

anonymous
()
Ответ на: комментарий от Deleted

ИМХО писк диск а- недостаток питания.
У кого-то видел на ютрубе что там даже какие-то специальные пищалки на плате есть. (ИМХО/не приснилось ли?)

Deleted
()
Ответ на: комментарий от Deleted

Кстати, а условия работы какие? Температура вроде в норме, а как там с вибрацией, например? Или с тяжелой электротехникой и заземлением рядом с корпусом?

anonymous
()
Ответ на: комментарий от Deleted

Ну тогда кирдык просто пришел от старости. Все когда-то ломается. Соленоид привода головок тоже ломается.

anonymous
()
Ответ на: комментарий от anonymous

Ну тогда кирдык просто пришел от старости. Все когда-то ломается. Соленоид привода головок тоже ломается.

а какие признаки того, что он дохнет при использовании кроме писков на старте всего один раз?

первый раз встречаю сообщение
kernel «BUG: soft lockup - CPU#1» «stuck for 22s!».

попробую еще вечером прогнать на каждом dd if=/dev/sdX | pv > /dev/null

и ZFS scrub тест

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

Гуглеж непосредственно по kernel «BUG: soft lockup - CPU#1» «stuck for 22s!» выдает возможные проблемы с блоком питания, а также ругань по поводу того, что ошибки в линуксе неинформативны.

anonymous
()
Ответ на: комментарий от anonymous

Гуглеж непосредственно по kernel «BUG: soft lockup - CPU#1» «stuck for 22s!» выдает возможные проблемы с блоком питания, а также ругань по поводу того, что ошибки в линуксе неинформативны.

происходит именно при запуске rm /dir/* в каталоге с большим количеством маленьких файлов, расположенном на разделе ZFSonLinux

единичку после CPU лучше убрать для более широкого охвата, от номера ядра не зависит и может меняться

sanyock ★★
() автор топика
Последнее исправление: sanyock (всего исправлений: 1)
Ответ на: комментарий от sanyock

Подробности в толксах. В целом - адовы томоза при хорошей нагрузке на любой ФС, которые убиваются переводом планировщика на одно ядро.

anonymous
()
Ответ на: комментарий от anonymous

собрать бутылок

Сколько сейчас за бутылку дают?

i-rinat ★★★★★
()
Ответ на: комментарий от anonymous

pool: momentus
state: ONLINE
scan: scrub repaired 0 in 1h33m with 0 errors on Wed Jul 20
config:

NAME STATE READ WRITE CKSUM
momentus ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
sda ONLINE 0 0 0
sdb ONLINE 0 0 0

errors: No known data errors



виснет даже не только при запуске rm, а вообще при входе в проблемный каталог

наверно надо этот каталог удалить в OpenIndiana

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

Если 64бит у Intel D510 такой весь полноценный, то почему даже SmartOS не грузится? Сразу уходит в reboot без каких либо сообщений. Тот же загрузочный диск проверял в виртуалке под Phenom II, грузится нормально.

По описанию SmartOS - это гипервизор, может быть, обязательно нужна виртуализация?

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

OpenIndiana тоже не грузится
сначала загружается с картинкой, потом секунд через 10 появляется Solaris ....
моргает курсор и фсе ...

пробовал с USB DVD, OpenIndia умеет грузиться с USB DVD?

sanyock ★★
() автор топика
Последнее исправление: sanyock (всего исправлений: 1)
Ответ на: комментарий от sanyock

остается только загрузиться в SystemRescueCD, расшарить vdevs через iSCSI и потом обработать пул удаленно на другом компе, например из виртуалки с Solaris с iSCSI клиентом?

чтобы диски физически не дергать из роутера

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

По описанию SmartOS - это гипервизор, может быть, обязательно нужна виртуализация?

Нет, не нужна, но illumos хочет 64 бита. И обо всём этом написано на сайте проекта.

EvgGad_303 ★★★★★
()
Последнее исправление: EvgGad_303 (всего исправлений: 1)
Ответ на: комментарий от EvgGad_303

в одной из веток про Intel D510, мне кто-то доказывал его полноценность в области 64 бит

но я пробовал грузить 32битное ядро OpenIndiana и таже история, может быть дело в USB DVD?

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

расшарил диск в Centos LiveCD через iSCSI

получил блоки через open-iscsi из Linux на другом компе с процом Phenom II X6

импортировал пул на этих дисках
попытался удалить проблемные каталоги

теперь валятся ошибки soft lockup CPU на клиенте iscsi скорее всего из ZFS on Linux

через какое-то время Linux виснет

попытался на этом же линуксе запустить виртуалку с OpenIndiana
аналогично импортировал пул через iSCSI
OpenIndiana не ругается на CPU soft lockup, однако по htop хоста загрузка одного ядра проца 100%, а OpenIndiana похоже висит, оба линукса продолжают работать (Centos с таргетом и VBox хост для OpenIndiana)

пишу сие через GSM модем на рабочей станции, потому как на роутере запущен последний Centos v7 LiveCD с таргетом ...

iostat на роутере показывает по нулям

sanyock ★★
() автор топика
Последнее исправление: sanyock (всего исправлений: 2)
Ответ на: комментарий от sanyock

BUG: soft lockup - CPU#1» «stuck for 22s!

Может еще из-за перегрева CPU. Если ноутбук или что-то мелкое например, HDD уже старый, ты делаешь масштабный rm, НDD греется, термопаста c CPU давно высохла, диск добавляет тепла и ты получаешь soft lockup.

anonymous_sama ★★★★★
()
Ответ на: комментарий от anonymous_sama

Может еще из-за перегрева CPU. Если ноутбук или что-то мелкое например, HDD уже старый, ты делаешь масштабный rm, НDD греется, термопаста c CPU давно высохла, диск добавляет тепла и ты получаешь soft lockup.

так на двух разных компах уже пробовал, на Phenom X6 всего одно ядро получается загруженным на 100% и виснет
паста у него свежая и может подолгу работать на 100% загрузке всех 6-и ядер, ни разу не видел зависания

сделал еще один эксперимент, скопировал с помощью dd по iSCSI с одного моментуса (все что на нем было, т.е. зеркало пула) на другой новый HDD 1TB

импортировал пул с нового HDD, далее смонтировал нехороший каталог, запустил удаление, через некоторое время начались уже известные ошибки CPU soft lockup!
при это из старого железа с роутера не осталось Н И Ч Е Г О!

получается это какой-то глюк в OpenZFS, от которого случается софт CPU факап в Linux потом зависон через пару минут, а Illumos тупо виснет сразу молча!

проблемный пул пережил десятки нажатий на ресет

впрочем есть другие пулы, которые пережили сотни нажатий кнопки ресет, и с ними все нормально

проблемный пул роутера хранит тысячи мелких файлов картинок с видеонаблюдения

причем проблемный пул пережил около месяца регулярных автоматических чисток пула, а потом видимо не выдержал (логически)

может отправить его в качестве подарка разработчикам Illumos, пусть полюбуются?

sanyock ★★
() автор топика
Последнее исправление: sanyock (всего исправлений: 3)
Ответ на: комментарий от sanyock

однако

zfs destroy momentus/zoneminder -r

отработало на первый взгляд нормально

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

по спекам интела он 64бит. про двд давно без понятия, сетевая загрузка решает, ну или флешка на худой конец.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от sanyock

ну, т.е. пул создавался zol, работал он тоже под управлением zol, с такими ошибками гуглится только линупс, а виноваты парни из illumos, оригинально. или ты хотел сказать: пусть полюбуются на очередные линуксовые костыли?

EvgGad_303 ★★★★★
()
Ответ на: комментарий от EvgGad_303

так вроде же исходники одинаковые кроме уровня портирования?

т.е. то, что рулит логическими структурами и не зависит от железа должно быть одинаковым на линуксе и на других платформах OpenZFS?

что за ненависть к линуксу?
почти как к венде

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

скорее всего причина в очень большом количестве мелких файлов на большом количестве уровней вложенности

наверно, ext4 поверх zvol сможет решить эту проблему

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

zfsonlinux обнови, или что там в debian. Можешь попробовать Ubuntu Xenial, тут официальная поддержка zfs, обновления для zfs достаточно часто приходят.

anonymous_sama ★★★★★
()
Ответ на: комментарий от anonymous_sama

zfsonlinux обнови, или что там в debian. Можешь попробовать Ubuntu Xenial, тут официальная поддержка zfs, обновления для zfs достаточно часто приходят.

09:26 root@atom ~ > modinfo zfs | head -n 5
filename: /lib/modules/3.16.0-4-amd64/updates/dkms/zfs.ko
version: 0.6.5.7-8-wheezy
license: CDDL
author: OpenZFS on Linux
description: ZFS

09:26 root@atom ~ > modinfo spl | head -n 5
filename: /lib/modules/3.16.0-4-amd64/updates/dkms/spl.ko
version: 0.6.5.7-3-wheezy
license: GPL
author: OpenZFS on Linux
description: Solaris Porting Layer

09:26 root@atom ~ > dpkg -al | grep zfs
ii libzfs2 0.6.5.7-8-wheezy amd64 Native ZFS filesystem library for Linux
ii zfs-dkms 0.6.5.7-8-wheezy all Native ZFS filesystem kernel modules for Linux
ii zfs-initramfs 0.6.5.7-8-wheezy amd64 Native ZFS root filesystem capabilities for Linux
rc zfsonlinux 8 all archive.zfsonlinux.org trust package
ii zfsutils 0.6.5.7-8-wheezy amd64 command-line tools to manage ZFS filesystems


почему-то версия SPL какая-то нитакая?

еще пробовал:
SystemRescueCD с ZFS на борту - та же история
OpenIndia - виснет наглухо сразу после запуска rm -Rf нехороший_каталог

sanyock ★★
() автор топика
Последнее исправление: sanyock (всего исправлений: 1)
Ответ на: комментарий от anonymous

FreeBSD use, мой неугомонный друг.

нее, нехота изучать ее

Индиану по iSCSI целый час к CentosLive подключал, ну их нафик эти униксы ...

мне и Linux хватит

sanyock ★★
() автор топика
Ответ на: комментарий от sanyock

это какбэ не совсем так.

что за ненависть к линуксу?
почти как к венде

бггг, это не похоже на праведный гнев линуксоидов по отношению к венде.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от EvgGad_303

бггг, это не похоже на праведный гнев линуксоидов по отношению к венде.

токта навегно эта пахоже на более кошегные знания, за пгавильное пгименение котогих можно более лучше питаться?

sanyock ★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.