LINUX.ORG.RU
ФорумTalks

Сбербанк кинул клич о помощи

 


0

4

На прошлой неделе Сбербанк падал, прошла неделя, а причины падения они так и не нашли, в результате кинули клич о помощи и гордо обозвали это краудсурсингом) Заполнив простенькую форму тебе присылают инвайт в их внутреннюю социалку для обсуждения возможных причин в формате «стена вконтакте»

http://sbrf.ru/moscow/ru/press_center/all/index.php?id114=11019301

★★★
Ответ на: комментарий от DrF

А Оракул то что? Как же техподдержка...

Для Ъ (чуть ниже):

Процессинг (система называется Way4) работает на базе данных Oracle (11 версии)
обслуживает 70 млн карт, около 15 млн онлайн транзакций в день.
Oracle пишет логи в онлайн журналы, которые затем автоматически (типа FIFO
буфера) сбрасываются на диски. Таким образом, журналы никогда не переполняются.
По какой - то причине (пока не понятно по какой) СУБД перестал удалять события
из журналов. После чего не прошел один из checkpoint-ов в системе и она
перестала отвечать на действия администратора. Систему перевели на резервный
комплекс и запустили recovery базы. Recovery остановился посередине пути и не
был завершен. После чего возобновили Recovery процедуру, но уже в полуручном
режиме, убрав параллельную (многпроцессорную) обработку. Поэтому получилось
долго (последовательная обработка recovery и большой объем данных в требующих
«наката» в базу).
Причины, почему такое произошло с базой данных сейчас выясняем - для этого
обрабатываем все системные логи - что достаточно трудоемко и не тривиально... 
quickquest ★★★★★
()
Ответ на: комментарий от quickquest

По какой - то причине (пока не понятно по какой) СУБД перестал удалять события

из журналов.

Какой эпичный бред. Никакие события не из каких журналов не удаляются, просто содержимое заполненного журнала (точнее, группы журнальных файлов) сбрасывается на диск, после чего группа объявляется свободной.

Причины, почему такое произошло с базой данных сейчас выясняем

Толку то выяснять? Арчивер сдох, это и так понятно. Проще надо было быть, не полагаться на супермегачуюдесный оракел, flash recovery и прочую уету. Как невоспитаный линуксоед, я в таких ситуациях делал ему kill -9, потом флашил шаред пул, рестартовывал арчивер и выяснял временное окно для рестарта базы :-)

no-dashi ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.