Доброго времени суток. Я нахожусь в некотором шоке и пожалуй начну историю из долека. Не знаю как у других но у меня вчера был очень насыщенный день.
Закралась мне идея в офисе вынести жесткие диски юзеров на сервер в ISCSI.
Я взял сервер Xeon E3-1240v2 старенький из бездействующих серверов, туда воткнул 4 диска WD30EFRX, 8GB RAM, обе сетевухи в bond0. Поставил Debian 10, программный mdraid RAID5 из 3-х дисков, этот рейд в lukscrypt на шифрованном разделе ext4. (вообще я хотел поизучать LVM2 но пока просто на ext4) Далее у меня tgtd раздает таргеты по 100гб через backing-store. Еще у меня там TFTP сервер c IPXE, маленький скрипт на PHP под Nginx.
Вообщем включается клиент, загружается с PXE (MBR). Mikrotik раздает DHCP указывает на сервер PXE, там менюшка, далее скармливается IPXE загрузчик который тягает скрипт с веб сервера, скрипт указываем ISCSI target диск и с него грузится Win7\Win10.
Там помимо Юзеров(1 юзер реально боевой) на этом сервере еще кружится диск от Hyper-V и пара виртуалок. Все это было в таком продакшн тесте, производительность ISCSI через гигабитную локалку давольно не плохая.
Вообщем Все работало…. Пару месяцев..
Сегодня с утра мне сообщают что не работает часть сервисов в этом офисе не доступна, как оказалось здох блок питания в Mikrotik, пока туда сюда пока заменил два кондера пока все поднялось. Все поднялось кроме этого боевого компа юзера.
Тут маленький момент, юзер пришел и пробовал включить комп уже после того как упал маршрутизатор и сломался PXE.
Вообщем юзер включает компьютер, с PXE+ISCSI грузится Win7 проходит половину загрузки и перезагружается и так в цикле. Решаю перезагрузить сервер, малоли что маршрутизатор не работал несколько часов, а там бондинг итд, при этом какбы сервер доступен работает нормально ушел в перезагрузку, нормально вернулся. Подципил lukscrypt диск перезапустил tgt, он отдельно цепляет конфиги с рейда. Проблема таже самая, грузится 7-ка до половины и перезагружается, причем долго тупит.
Отключаю правила ACL на TGTd и 7-ка начинает загружаться, но имеет совершенно не те данные в образе!!! Тобиш корректно загрузилась какаято промежуточная версия особо не настроенной Win7. Никаких ошибок не по рейду ни в логах, как будто с добрым утром все четко.
Я сижу и не могу понять а куда собственно делать полностью настроенная и стабильно работающая несколько месяцев система. Сервер не перезагружался какоето время, возможно все эти два месяца.
У меня 2 теории о сложившейся ситуации.
- Во время тестирования я чтото напутал, скормил в конфиг промежуточный образ а реальный образ например удалил и пока служба работала все было в порядке, предпологаю был открыт дискриптор удаленного файл.
- Tgt совершил какойто невероятный финт ушами с кэшами или кудато в неизвестном мне направлении сохранял данные не трогая оригинальный образ и при перезагрузке благополучно все забыл. Темнеменее я облазил весь сервер через du -sh ./* и не нашел каких либо крупных файлов имеющих отношение к проблеме.
Я пробовал запускать undelete и debugfs но совершенно не обнаружил удаленных массивов данных. Также я по самому проблемному образу проходился R-Studio и даже намека на файлы пользователя не обнаружил.
Я подозреваю что в самой ext4 должны сохраняться какието данные, и мне бы хотелось их както выудить, но к сожалению мне даже дамп на 6тб некуда сохранить.
Пользователь уже смирился, но меня както карежит, я планирую переводить на подобную систему весь офис и както не очень хотелосьбы в одно прекрасное утро утратить в неизвестном направлении вообще все. Какие есть варианты?
p.s Hyper-V и Виртуалки поднялись нормально с тогоже tgt.