LINUX.ORG.RU
ФорумAdmin

Контрольные суммы блочного устройства

 ,


0

2

Всем доброго времени суток. Занимаюсь резервированием старых серверов на случай «а мало ли, вдруг данные понадобятся». На железе разверну по мере возможности другие сервисы с нуля.

Загружаюсь в Ubuntu 16 с usb в режиме live. Ничего не смонтировано и ничего по идее никуда не пишется.

Когда резервировал сервак без raid контроллера, то при проверке md5sum /dev/sda (условно) она совпадала и на нее можно было опираться.

Дошло дело до серверов с raid контроллерами. И вот какие странности: Первое зеркало

root@ubuntu:~# echo "starting $(date)" ; md5sum /dev/sda ; echo "finished $(date)";
starting Fri Oct 19 04:50:08 UTC 2018
fb9f6c5845f73f2ab1e799c4542293f8  /dev/sda
finished Fri Oct 19 05:14:44 UTC 2018
root@ubuntu:~# echo "starting $(date)" ; md5sum /dev/sda ; echo "finished $(date)";
starting Fri Oct 19 05:37:35 UTC 2018
6e68c76acd7acd112a83d0968a41477e  /dev/sda
finished Fri Oct 19 06:02:10 UTC 2018
root@ubuntu:~# echo "starting $(date)" ; md5sum /dev/sda ; echo "finished $(date)";
starting Fri Oct 19 06:05:34 UTC 2018
11be5f4e9a448495831ccd8051827d33  /dev/sda
finished Fri Oct 19 06:30:08 UTC 2018

И второе зеркало:

root@ubuntu:~# echo "starting $(date)" ; md5sum /dev/sdb ; echo "finished $(date)";
starting Fri Oct 19 04:50:21 UTC 2018
10a8ae7b02fab862fcdfeeae674a475f  /dev/sdb
finished Fri Oct 19 05:15:00 UTC 2018
root@ubuntu:~# echo "starting $(date)" ; md5sum /dev/sdb ; echo "finished $(date)";
starting Fri Oct 19 05:37:39 UTC 2018
10a8ae7b02fab862fcdfeeae674a475f  /dev/sdb
finished Fri Oct 19 06:02:19 UTC 2018
root@ubuntu:~# echo "starting $(date)" ; md5sum /dev/sdb ; echo "finished $(date)";
starting Fri Oct 19 06:05:39 UTC 2018
10a8ae7b02fab862fcdfeeae674a475f  /dev/sdb
finished Fri Oct 19 06:30:19 UTC 2018

Это я несколько раз параллельно друг-другу в разных окнах запускал подсчет. Второе зеркало стабильно выдает одну и ту же контрольную сумму. Первое зеркало каждый раз показывает разное.

Raid controller из разряда старого хлама: Adaptec 5405

Дров на такое для нормальных версий ОС нет. Все старье. Есть идеи почему суммы разные? Я вот думаю, что может быть первое зеркало в режиме восстановления.

У меня было уже такое на одном серваке с raid-ом. Там правда еще старее контроллер: Adaptec 3405. Там я проигнорил разность контрольных сумм. Конвертировал dd образ под vmware и запустил ос в vmware workstation скормив ему этот образ диска. Все завелось вроде бы. Там роль обычного vpn сервера была. За это не так страшно. А вот сервак по поводу которого пишу посерьезнее. Там Oracle вертится. Как бы не сковырнуть чего. А потом когда надо будет оно еще не взведется и приплыли.

ОП Пост не читал, не уверерен, что ты спрашивал про это.

Возможно диски зеркала рассинхронизированы. Вероятно, твоя рейд подсистема (софт это или железо) имеет право каждый раз читать с произвольного диска. Отсюда и разница в повторных чтениях. Это не страшно, если рассинхронизация в тех областях, где нет файлов.

thomasbug
()

Ничего не смонтировано

Скорее всего это так

и ничего по идее никуда не пишется.

Если рейд программный - cat /proc/mdstat

Если там какие-то устройства есть и идёт синхронизация - то пишется и еще как.

Pinkbyte ★★★★★
()
Ответ на: комментарий от Pinkbyte

Прошел уже день можно сказать. Повторил подсчет контрольных сумм два раза и они снова оказались разными.

Не может же разваленное зеркало из 2х sas 320 GiB синкаться так долго?

Допустим оно не синкается. Допустим зеркало развалено. Но ведь тогда даже если диски содержат разную относительно друг-друга инфу, то в общем случае ее контрольная сумма как некоего целого на уровне логического диска должна же оказаться одинаковой?

nickdsl
() автор топика
Ответ на: комментарий от nickdsl

то в общем случае ее контрольная сумма как некоего целого на уровне логического диска должна же оказаться одинаковой?

с чего бы это? в общем случае нет. перечитай первое сообщение еще раз.

Допустим оно не синкается

ты сначала разберись что у тебя там. запусти нормальную проверку. пусть рейд-система тебе скажен синхр. они или нет. запусти ручную синхронизацию. я могу тебе сказать как это делать в md, но у тебя вроде как не md

thomasbug
()
Ответ на: комментарий от nickdsl

Не может же разваленное зеркало из 2х sas 320 GiB синкаться так долго?

Скорость синхронизации можно регулировать, внезапно. Как это конкретно делается в той версии Linux, с которой ты грузишься - надо смотреть.

Допустим оно не синкается. Допустим зеркало развалено

А ты не допускай - ты посмотри. И еще - я говорил о программном рейде средствами mdadm. Для dmraid для полусофтовых рейдов логика может быть другой. А уж про аппаратные рейд-контроллеры и говорить не хочется - рейд-контроллеры вообще могут скрывать отдельные диски и в системе ты их не увидешь.

если диски содержат разную относительно друг-друга инфу, то в общем случае ее контрольная сумма как некоего целого на уровне логического диска должна же оказаться одинаковой?

Да, при условии что на диск ничего не пишется. Никем. Писаться что-то служебное может и в разделы, которые не монтируются, да. Тут опять же - зависит от дистрибутива. Специальные дистры для forensics-исследований делают не просто так.

Ну и напоследок. Подобная шляпа(разные контрольные суммы) может происходить тупо если у тебя оперативная память без ECC и при этом битая.

Pinkbyte ★★★★★
()
Последнее исправление: Pinkbyte (всего исправлений: 1)
Ответ на: комментарий от Pinkbyte

Доброго времени суток. Добрался до работы. Раскатил там на usb флеш при отключенном кабеле от raid контроллера (не обязательно вообще то, но на всякий случай) centos 7 1804. Накатил туда storage manager и с помощью утилиты получил конфиг контроллера. Милости прошу под кат.

[root@x8dtu StorMan]# ./arcconf getconfig 1 | less
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : Adaptec 5405
   Controller Serial Number                 : 1D0511909DD
   Physical Slot                            : 1
   Temperature                              : 62 C/ 143 F (Normal)
   Installed memory                         : 256 MB
   Copyback                                 : Disabled
   Background consistency check             : Disabled
   Automatic Failover                       : Enabled
   Global task priority                     : High
   Performance Mode                         : Default/Dynamic
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 2/0/0
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (17899)
   Firmware                                 : 5.2-0 (17899)
   Driver                                   : 1.2-1 (50792)
   Boot Flash                               : 5.2-0 (17899)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Optimal
   Over temperature                         : No
   Capacity remaining                       : 100 percent
   Time remaining (at current draw)         : 3 days, 1 hours, 52 minutes

----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 0
   Logical device name                      : mirror1
   RAID level                               : 1
   Status of logical device                 : Optimal
   Size                                     : 285686 MB
   Read-cache mode                          : Enabled
   Write-cache mode                         : Enabled (write-back)
   Write-cache setting                      : Enabled (write-back)
   Partitioned                              : Yes
   Protected by Hot-Spare                   : No
   Bootable                                 : Yes
   Failed stripes                           : No
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Segment 0                                : Present (0,0) BJ00PB207327
   Segment 1                                : Present (0,1) BJ00PB207165

Logical device number 1
   Logical device name                      : mirror2
   RAID level                               : 1
   Status of logical device                 : Optimal
   Size                                     : 285686 MB
   Read-cache mode                          : Enabled
   Write-cache mode                         : Enabled (write-back)
   Write-cache setting                      : Enabled (write-back)
   Partitioned                              : Yes
   Protected by Hot-Spare                   : No
   Bootable                                 : No
   Failed stripes                           : No
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Segment 0                                : Present (0,3) BJ00PB207330
   Segment 1                                : Present (0,2) BJ00PA404R20

----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
      Device #0
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SAS 3.0 Gb/s
         Reported Channel,Device            : 0,0
         Reported Location                  : Connector 0, Device 0
         Vendor                             : FUJITSU
         Model                              : MBA3300RC
         Firmware                           : 0103
         Serial number                      : BJ00PB207327
         World-wide name                    : 500000E1174810B1
         Size                               : 286102 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
      Device #1
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SAS 3.0 Gb/s
         Reported Channel,Device            : 0,1
         Reported Location                  : Connector 0, Device 1
         Vendor                             : FUJITSU
         Model                              : MBA3300RC
         Firmware                           : 0103
         Serial number                      : BJ00PB207165
         World-wide name                    : 500000E11739FA41
         Size                               : 286102 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
      Device #2
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SAS 3.0 Gb/s
         Reported Channel,Device            : 0,2
         Reported Location                  : Connector 0, Device 2
         Vendor                             : FUJITSU
         Model                              : MBA3300RC
         Firmware                           : 0103
         Serial number                      : BJ00PA404R20
         World-wide name                    : 500000E1149FDBB1
         Size                               : 286102 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
      Device #3
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SAS 3.0 Gb/s
         Reported Channel,Device            : 0,3
         Reported Location                  : Connector 0, Device 3
         Vendor                             : FUJITSU
         Model                              : MBA3300RC
         Firmware                           : 0103
         Serial number                      : BJ00PB207330
         World-wide name                    : 500000E117481651
         Size                               : 286102 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No


Command completed successfully.

Насколько я понимаю raid нигде не развалился и поживает себе замечательно. Единственная разница между зеркалами - флаг boot. После установки Centos 7 на usb носитель я разумеется вернул кабель обратно, чтобы система начала видеть тома.

Сейчас попробую посчитать суммы заново и напишу результат. Да, согласен. Я еще не проверил ОЗУ. Сделаю это уже завтра.

nickdsl
() автор топика
Ответ на: комментарий от nickdsl

Так у тебя там еще и аппаратный рейд? Уууу, ну тут тогда может быть что угодно. Но память на всякий случай проверь, да...

Pinkbyte ★★★★★
()
Ответ на: комментарий от Pinkbyte

Я конечно приведу слегка сомнительный аргумент. Он не отменяет тестов памяти, просто склоняет к отрицательному прогнозу по результату теста.

Если это память, то каким образом тогда md5 второго зеркала не изменялась за кучу тестов, а первого ни разу не совпадала. Ок. Допустим я запускал тесты параллельно, и первое зеркало работало в той области памяти где есть дефект, а второй процесс работал где то в другом месте.

Но по моему я запускал подсчет md5 суммы второго зеркала потом отдельно. Т.е. по логике данный процесс мог занять ту же самую область памяти что и при подсчете первого зеркала и дать мне другую сумму.

Понятное дело, что это все «если бы, да кабы», но мне интересно.

nickdsl
() автор топика
Ответ на: комментарий от nickdsl

Оно-то ты всё верно говоришь. Если не учитывать такую штуку как кеши и маппинг виртуальной памяти в физическую. Просто hello world на C выводящий адрес(виртуальный) указателя при повторных запусках может выдавать один и тот же результат, а может разный.

Так что когда память битая и нет ECC понять что проблемы из-за этого можно только сделав memtest.

Вот у меня например была симптоматика однажды - крашился firefox. Ну вот ты хоть тресни - крашился и всё. Причем на этом же компе преспокойно себе работала админка биллинга(на Java), жрала при этом почти всю память когда я выгружал из неё данные и при этом не падала и в логи warning-ами никакими не срала. Данные конечно были наверняка со странностями, но я этого не замечал :-)

И вот когда меня падение браузера в очередной раз заколебало, я сделал memtest и с удивлением обнаружил, что на одной из плашек почти полторы тысячи(!) ошибок.

Мораль сей басни очень проста: лучше один раз убедиться что память целая и больше к этому вопросу не возвращаться, чем сидеть , гадать на кофейной гуще и страдать.

Pinkbyte ★★★★★
()
Последнее исправление: Pinkbyte (всего исправлений: 1)
Ответ на: комментарий от Pinkbyte

Samsung 4GB PC3-8500R DDR3-1066MHz DIMM Memory Module- M393B5170EH1-CF8 ECC registered.

Завтра проверю. А вдруг действительно.

nickdsl
() автор топика
Ответ на: комментарий от Pinkbyte

Все планки ОЗУ одинаковые. Протестировал по одной. Ошибок не выявлено. Написал запрос в тех.саппорт Adaptec. Приложил все что писал тут. Интересно что они скажут и скажут ли вообще что то отличающееся от каких либо стандартных общих фраз.

nickdsl
() автор топика
Ответ на: комментарий от Pinkbyte

Greetings from Microsemi!

Thank you for your message.

We would not be able to offer support, on how to back up your data, that is saved on the array. This process would not differ from backing up any other data, on any other partition and is not controller specific. Your two arrays are in an optimal state and there are no failed stripes. The ASR-5405 RoHS controller you are contacting us about is beyond complementary support since 05/24/2013 and out of warranty since 05/24/2014.

Support is only available for a charge. The charge is 80 USD per incident, payable by MasterCard, Visa, or American Express. There may not be a viable solution for every problem.

To speak with a Technical Support Specialist call Microsemi Customer Service, see http://ask.adaptec.com/app/answers/detail/a_id/4945 for how to contact us. Please have you credit card information available.

Thank you for using ASK Us.

Best Regards, Microsemi Technical Support

Собственно грамотно отшили. Подтвердили, что у меня написано что с контроллером и массивами все хорошо. Бэкапь как хочешь.

Гарантия истекла. Хочешь поговорить: $80/инцидент.

nickdsl
() автор топика
Ответ на: комментарий от nickdsl

Enjoy ынтерпрайз, чо. Так в общем случае везде, особенно по истечении срока жизни и/или гарантии устройства.

Но если они говорят что у тебя всё окей - значит забей и считай вот такое вот поведение особенностью работы твоего рейда. Что-то он видимо пишет в служебные области(которые не скрывает от операционки) в результате у тебя меняется контрольная сумма.

Pinkbyte ★★★★★
()
Ответ на: комментарий от Pinkbyte

По всей видимости оно так. Спасибо.

nickdsl
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.