LINUX.ORG.RU
ФорумTalks

Почему белорусский словарь для OpenOffice имеет такой большой размер?


0

1

Имеем такой список словарей проверки орфографии для OpenOffice.org: http://extensions.services.openoffice.org/en/dictionaries

Все словари имеют размер не больше мегабайта, белорусские же (официальный: http://extensions.services.openoffice.org/en/project/dict-be-official и классический: http://extensions.services.openoffice.org/en/project/dict-be-classic) занимают почти 4 мегабайта. Почему?

Если кому интересно, задался этим вопросом из-за проблемы с производительностью, т.к. если его конвертировать в формат понятный браузеру Chromium (*.bdic) - он разрастается до 13 мегабайт (в то время как русский - 2), а это оооочень сильно сказывается на производительности.

Накопал мануал по оптимизации: http://mozilla-russia.org/projects/dictionary/hunspell.html, но что-то makealias не помог.

Есть идеи?

★★★★★

Последнее исправление: soko1 (всего исправлений: 2)

Кстати с aspell подобная ситуация

soko1 ★★★★★
() автор топика
Ответ на: комментарий от adriano32

Да, наверное в этом проблема :(
А существуют ли инструменты для автоматического преобразование всего этого дела в более-менее вменяемый формат? Или только руками?

soko1 ★★★★★
() автор топика
Ответ на: комментарий от adriano32

Вот кстати ужас:

[soko1@arch Downloads]$ cat be-classic.dic  | wc
1566662   64492 18467989
[soko1@arch Downloads]$ cat ru_RU.dic  | wc
 146236  132078 1968896

soko1 ★★★★★
() автор топика
Ответ на: комментарий от adriano32

>$ mv dict-be-official.oxt dict-be-official.zip

$ unzip dict-be-official.zip


Не, ну я ж не идиот - разумеется распаковал перед тем как сравнивать (:

Кстати, посмотрел, оно там в cp1251 всё, позор-позор...


А русский думаешь лучше? Там вообще KOI8-R.

soko1 ★★★★★
() автор топика
Ответ на: комментарий от soko1

там все словоформы, я посмотрел, пруф

...бываючага
бываючае
бываючай
бываючаму
бываючаю
бываючая
бываючую
бываючы
бываючым
бываючымі
бываючых
бываючыя
...
Видимо есть способ указания словоформ, о котором знают русские сборщики словаря и не знают ваши.

adriano32 ★★★
()
Ответ на: комментарий от ymuv

Работает, пообновляй пару раз страницу, это мы лором просто задосили оракловское говно

soko1 ★★★★★
() автор топика
Ответ на: комментарий от adriano32

Да, вероятнее всего можно весь этот мусор заменить на нечто вроде:

бываюч[ае|ай|ая|...]

soko1 ★★★★★
() автор топика
Ответ на: комментарий от adriano32

>Eddy_Em, признавайся, KOI8-R — твоих рук дело?

Зато байты конкретно так экономятся. В UTF-8 оно б в два раза больше места занимала. Поэтому может и разумно.

soko1 ★★★★★
() автор топика
Ответ на: комментарий от soko1

надо почитать как переделать словоформы и либо написать [гневное] письмо мейнтейнеру вашего словаря, либо сделать это самому.

в любом случае на данном этапе я бы на твоём месте связался с мейнтейнером словаря, узнал, откуда он его взял (позаимствовал), ну и дальше по ходу дела...

adriano32 ★★★
()
Ответ на: комментарий от adriano32

>в любом случае на данном этапе я бы на твоём месте связался с мейнтейнером словаря, узнал, откуда он его взял (позаимствовал), ну и дальше по ходу дела...

Да, спасибо за идею. Так и сделаю (:

то-то же, смотри мне :)


К слову, я на русском разговариваю только с теми кто белорусского не понимает, так что можешь не сомневаться (:

soko1 ★★★★★
() автор топика
Ответ на: комментарий от soko1

я на русском разговариваю только с теми кто белорусского не понимает

хіба я не зрозумію мови братського народу, от жеж знайшов привід для хвилювань ;)

adriano32 ★★★
()
Ответ на: комментарий от ZenitharChampion

А у белорусского тогда Юникод.

я об этом же.

adriano32 ★★★
()
Ответ на: комментарий от adriano32

На работу с многобайтными кодировками тратится больше ресурсов.
А автор вроде на производительность жаловался. Может, они по этим соображениям еще не сконверчены во что-нибудь юникодное?

Frakhtan-teh ★★
()
Ответ на: комментарий от morphine

>Когда этот язык уже умрет. Полжизни испортил мне:\

Убейся морфином (:

soko1 ★★★★★
() автор топика
Ответ на: комментарий от adriano32

>хіба я не зрозумію мови братського народу, от жеж знайшов привід для хвилювань ;)

Да не, дело не в этом. Просто тут кроме нас всё же больше тех, кто белорусского/украинского не понимает, поэтому из уважения к большинству, так сказать (:

soko1 ★★★★★
() автор топика
Ответ на: комментарий от Frakhtan-teh

Да, я думаю именно по этой причине. Потому что оно и без того 18 метров весит, а в юникоде все 36 будет.
Да и на самом деле пофиг, абы работало. Оптимизировать бы как нибудь, ээх

soko1 ★★★★★
() автор топика
Ответ на: комментарий от Frakhtan-teh

да нет, тут на лицо ситуация типа «был готовый словарь со всеми словоформами, падежами, временами, родами, etc, оцифрованный или подготовленный для оцифровки, я его взял и привёл в нужный вид и всё, кому что не нравится — берите и допиливайте сами, у меня нет на это времени...»

adriano32 ★★★
()
Ответ на: комментарий от soko1

вот узнаешь какой бумажный словарь он брал за основу, что там есть, как он устроен, если там отделены лексемы от словоформ, можно как-то выкрутится я думаю, иначе придётся анализировать и сортировать этот...

adriano32 ★★★
()
Ответ на: комментарий от soko1

> Или только руками?

Только руками. Изначально и в русском словарь был большой (словарь Книжника по результатам сканирования lib.ru), а затем появился ручками допиленный словарь Лебедева, который в той или иной форме теперь везде используется.

Evgueni ★★★★★
()
Ответ на: комментарий от adriano32

Eddy_Em, признавайся, KOI8-R — твоих рук дело?

Нет, но я рад, что есть еще люди, не забывающие об этой хорошей кодировке. Да и экономия места даже без сжатия…

Eddy_Em ☆☆☆☆☆
()

Кстати, странно: почему беларусов обошли с КОИ8? КОИ8-Р есть, КОИ8-У есть, а КОИ8-Б - нет?

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

>Да и экономия места даже без сжатия…

даже на компьютерах 8-летней давности utf-8 не даёт никаких заметных тормозов

lazyklimm ★★★★★
()
Ответ на: комментарий от lazyklimm

Неудобно же с ним работать. В сях работа с восьмибитной кодировкой элементарна, а для юникода приходится костыли использовать.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от adriano32

> як ты асмеліўся назваць родную мову? смецце? нягоднік!
Дивно чути від українця білоруську мову, але приємно:)

Slavaz ★★★★★
()
Ответ на: комментарий от lazyklimm

>даже на компьютерах 8-летней давности utf-8 не даёт никаких заметных тормозов

Только не в этом случае, к сожалению

soko1 ★★★★★
() автор топика
Ответ на: комментарий от Eddy_Em

>Кстати, странно: почему беларусов обошли с КОИ8? КОИ8-Р есть, КОИ8-У есть, а КОИ8-Б - нет?

Ага, интересный вопрос. Сам бы хотел получить ответ (:

soko1 ★★★★★
() автор топика
Ответ на: комментарий от Evgueni

Спасибо за инфу. Долгая предстоит работа, чувствую. А ещё если учесть что существует два правописания (даже три, т.к. ещё есть латинка), то работы в два три раза больше.

soko1 ★★★★★
() автор топика

Потому что не нужен, очевидно же.

aedeph
()
Ответ на: комментарий от lazyklimm

а нефиг работать с символами как с целыми числами, чай, не 70-е

Как мне хочется, так и работаю :)

Зачем себе лишний геморрой искать?

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

>Зачем себе лишний геморрой искать?

работа со строками как с числами - это и есть геморрой

lazyklimm ★★★★★
()
Ответ на: комментарий от int13h

Аналягічна. Рады бачыць людзей накшталт цябе :)
Далучайся да распрацоўкі слоўніка. Адзінае што, пакуль ня ведаю з чаго пачаць. Але гэта часова (:

soko1 ★★★★★
() автор топика
Ответ на: комментарий от overmind88

У мене дружина була українка, так що я теж трохи вмію розмовляти (:

soko1 ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.