Восстановить текст в БД

1

2

На каком-то этапе, кем-то при переносе БД была испорчена кодировка текстовых полях (кириллица). Так если к этим строкам применить изменение кодировки с OEM866 на win1251,то получаем

Имеем:
LэфЁхщ TшъЄюЁютшў ярёяюЁЄ: +L 123456 тvфрэ: +L+L+¦I=T-¦L¦ ¦T

Получаем:
Lндрей Tикторович паспорт: +L 123456 вvдан: +L+L+жI=T-жLж жT

почти полностью получилось восстановить,но есть проблема с некоторыми буквами. а есть вообще капец какой-то,скорее всего было написано большими буквами

Возможно ли восстановить информацию в таком запущенном случае?

Ссылка

←	не резолвятся сайты

OpenSUSE использует HDD на 100%

→

Нереально, битые символы всё равно будут. Тут только разворачивать из заранее валидного бэкапа.

Pinkbyte ★★★★★
(21.05.22 12:26:11 MSK)

Ответ на: комментарий от Pinkbyte 21.05.22 12:26:11 MSK

С бэкапом грустно, нет его

если восстановить и будут битые некоторые символы,при этом как говорил Жорж Милославский «понять бы в общих чертах»,то такой вариант тоже приемлем. Как например ФИО восстановилось, почти, да, проблема с первой буквой фамилии,но имя и отчество уже можно восстановить полностью.

LamerLinux
(21.05.22 12:33:53 MSK) автор топика

Ответ на: комментарий от LamerLinux 21.05.22 12:33:53 MSK

Как например ФИО восстановилось, почти, да, проблема с первой буквой фамилии,но имя и отчество уже можно восстановить полностью.

Ну вот примерно так оно и будет всё, лучше вариантов нет. В онлайне есть пара конверторов(гугл в помощь) из кодировки в кодировку, некоторые понимают даже вот такое битое, но качество результирующего текста +/- одинаковое, потому что при такой некорректной перекодировки часть информации безвозвратно теряется.

Pinkbyte ★★★★★
(21.05.22 12:51:42 MSK)

Ответ на: комментарий от Pinkbyte 21.05.22 12:51:42 MSK

я не могу, даже частично,восстановить ту часть,что после «выдан»

«+L+L+¦I=T-¦L¦ ¦T»

это наверное полностью в утиль?

LamerLinux
(21.05.22 13:08:48 MSK) автор топика

Ответ на: комментарий от LamerLinux 21.05.22 13:08:48 MSK

это наверное полностью в утиль?

похоже на то

Pinkbyte ★★★★★
(21.05.22 13:22:28 MSK)

Ссылка

LibreOffice Calc попробуй. Я так вполне удачно распарсил текстовку lib.ru в кодировке koi8-r в UTF-8. Правда пришлось вдоволь поиграть с параметрами, зато получилось лучше, чем все мои потуги распарсить при помощи Perl. Там обьём просто был почти 20 000 наименований с авторами и адресами.

cadaber ★★
(22.05.22 15:03:34 MSK)
Последнее исправление: cadaber 22.05.22 15:07:36 MSK (всего исправлений: 2)

Ссылка

Я бы выгнал отдельную табличку в csv и затем уже разбирался, что там и питоном ее конвертировал.

По идее под конец можно прогнать еще через словарь.

~~AVL2~~ ★★★★★
(22.05.22 15:20:18 MSK)

Ссылка

Ну вот в этом примере видно, что L=А, T=В, v=ы. То есть надо создать свою таблицу перекодировки, которая в общем и целом повторяет 866=>1251, но меняет ещё и некоторые другие (судя по примеру, в основном, с кодами меньше 128) символы. Процесс придётся проводить в несколько прогонов, с анализом полученных результатов. Анализ будет слегка похож на то, чем занимался ГГ рассказа По «Золотой жук». Печально будет, если преобразование было необратимым, т.е. если L, кроме A, может означать ещё что-то.

Записей в БД много?

я не могу, даже частично,восстановить ту часть,что после «выдан»

По одной строчке не восстановишь. Надо смотреть, сопоставлять, если строчек такого вида много. Похоже на какие-то вусмерть перекодированные цифры, составляющие дату выдачи. Анализировать, где повторяющиеся символы. В общем, задача творческая. И гарантий, что результатом всё равно не окажется «в утиль», нет. Но попробовать можно.

hobbit ★★★★★
(22.05.22 16:16:31 MSK)
Последнее исправление: hobbit 22.05.22 16:16:54 MSK (всего исправлений: 1)

Ответ на: комментарий от hobbit 22.05.22 16:16:31 MSK

По всей видимости,таки крышка данным «+L+L+¦I=T-¦L¦ ¦T» всё что написано большими кириллическими превратилось в комбинацию этих символов

для примера

Lрина Tладимировна
+катерина Tергеевна

как видно Т это не только В, но и С. Так что тот кто это вел до меня просто чудак на букву «М». Что-то восстановлю, а что-то просто похороню... Всем спасибо.

LamerLinux
(23.05.22 21:17:29 MSK) автор топика

Ответ на: комментарий от LamerLinux 23.05.22 21:17:29 MSK

Надо применить азы криптологии - выяснить, какие буквы и фразы встрейались в части «+L+L+¦I=T-¦L¦ ¦T», проанализировать, какие буквы были заменены на какие символы (многие буквы на один символ), затем искать последовательности символов, которые соответствуют данным, которые встречались в той части записи (и/или вероятно будут в данной записи).

Chrabaszcz.
Zhrazaszzz.
Когда станет известно, что z = b или c, ищем в словаре [bc]hra[bc]as[bc][bc][bc]

Сложность во многом зависит от того, фамилии ли там, определённые фразы («рождён», «выдан»), или произвольный текст.

Ещё можно делать fuzzy matching со словарём встречаемых фамилий/имён/чего угодно, для того же «Тладимировна» других вариантов кроме «Владимировна» особо не найти.

token_polyak ★★★★★
(23.05.22 21:55:15 MSK)
Последнее исправление: token_polyak 23.05.22 21:55:50 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	не резолвятся сайты

General

OpenSUSE использует HDD на 100%

→

Похожие темы