Добавляет ли тормоза UTF8?

0

2

Написал небольшой поисковичок на JS, который производит поиск по массиву строк, по регекспам, и заметил тормоза на слабом железе. Перекодировал в cp1251, тормоза исчезли. Может просто совпадение, хз, может алгоритм поиска кривой, но в данный момент меня интересует, на сколько (в процентах, в среднем) способна затормозить кодировка? И какая кодировка для нац алфавита оптимальна для парсинга и быстроты исполнения (ведь есть кроме cp1251 еще, например, ibm866, еще там какие-то)? Может имеет смысл вообще отказаться от UTF?

UPD Если чо, мне никакие спецсимволы и прочие извраты не нужны, парсится текст, содержащий только обычные символы алфавита знаки препинания и цифры

Ссылка

←	String — это не primitive type

Новый тип СУБД от Google

→

Используй КОИ8-Р!

Deleted
(08.08.14 19:17:52 MSK)

Ссылка

Ооо, cast ~~Eddy_Em~~

emissar ★★
(08.08.14 19:19:20 MSK)

Ссылка

еще есть utf16, он быстрее чем utf8. для поиска и сортировки — utf8 самый медленный. в сишечке можно хорошо оптимизнуть. в js нельзя.

waker ★★★★★
(08.08.14 19:24:28 MSK)

Ответ на: комментарий от waker 08.08.14 19:24:28 MSK

Но cp1251 все равно быстрей, чем utf16, насколько я понял?

~~anonimous~~ ☆
(08.08.14 19:28:06 MSK) автор топика

Ответ на: комментарий от anonimous 08.08.14 19:28:06 MSK

да

waker ★★★★★
(08.08.14 19:33:06 MSK)

Ссылка

на сколько (в процентах, в среднем) способна затормозить кодировка?

Тормозит не кодировка, а её обработчик. Почитай, как работает тот что ты используешь.

~~vurdalak~~ ★★★★★
(08.08.14 19:33:52 MSK)

Ответ на: комментарий от waker 08.08.14 19:24:28 MSK

а почему так? потому что фиксированно 2 байта?
мне правда интересно :)

ii343hbka ★★★
(08.08.14 19:34:29 MSK)

если символы вне cp1251 не нужны вообще — я бы использовал cp1251. сортировка и поиск в utf8 — это ад. и тормоза.

waker ★★★★★
(08.08.14 19:36:23 MSK)

Ссылка

Ответ на: комментарий от ii343hbka 08.08.14 19:34:29 MSK

архитектура, с двойным словом быстрее всего

fornlr ★★★★★
(08.08.14 19:39:28 MSK)

Ответ на: комментарий от ii343hbka 08.08.14 19:34:29 MSK

не всегда фиксированно 2 байта, но в большинстве случаев будет 2 байта на символ, поэтому алгоритмическая сложность такая же, как у того же cp1251 или koi8-r, минус накладные расходы на двойной размер.

когда символ в 2 байта не влазит — будет еще хуже чем с utf8.

если нужен уникод с фиксированным размером код-пойнтов — то только utf32.

waker ★★★★★
(08.08.14 19:41:13 MSK)

Ссылка

Ответ на: комментарий от ii343hbka 08.08.14 19:34:29 MSK

а почему так? потому что фиксированно 2 байта? мне правда интересно :)

Это, кстати, распространенное заблуждение. В utf16 не фиксированное колчество байт на символ.

Waterlaz ★★★★★
(08.08.14 19:41:14 MSK)

Ссылка

Ответ на: комментарий от vurdalak 08.08.14 19:33:52 MSK

Тормозит не кодировка, а её обработчик. Почитай, как работает тот что ты используешь.

а сложность обработчика, и его тормознутость, напрямую вытекает из кодировки. man fixed vs variable-length encodings.

waker ★★★★★
(08.08.14 19:42:41 MSK)

Ссылка

Ответ на: комментарий от fornlr 08.08.14 19:39:28 MSK

архитектура, с двойным словом быстрее всего

1-байтовый fixed-length encoding быстрее.

waker ★★★★★
(08.08.14 19:43:59 MSK)

Ссылка

теперь этот тред принадлежит ~~Eddy_Em~~

~~stevejobs~~ ★★★★☆
(08.08.14 19:48:15 MSK)

Ответ на: комментарий от stevejobs 08.08.14 19:48:15 MSK

ага, ждем повелителя koi8 :)

waker ★★★★★
(08.08.14 19:50:05 MSK)

Ссылка

Ответ на: комментарий от stevejobs 08.08.14 19:48:15 MSK

Кыш!

~~Eddy_Em~~ ☆☆☆☆☆
(08.08.14 20:40:12 MSK)

Ссылка

Если тебе нужна сортировка, то все-таки не КОИ8-Р, а 1251 или 866. В КОИ символы идут не по алфавиту, поэтому сортировка выполняется таблично, т.е. медленнее, чем тупо сравнением кодов.

~~Eddy_Em~~ ☆☆☆☆☆
(08.08.14 20:41:39 MSK)

Ответ на: комментарий от Eddy_Em 08.08.14 20:41:39 MSK

говно

anonymous
(08.08.14 21:36:47 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 08.08.14 20:41:39 MSK

Тогда в чём преимущество КОИ8 перед CP866?

CYB3R ★★★★★
(08.08.14 21:54:08 MSK)

Ответ на: комментарий от CYB3R 08.08.14 21:54:08 MSK

В наше время — ни в чем. Семибитных линий связи уже давно нет. Просто привычка.

~~Eddy_Em~~ ☆☆☆☆☆
(08.08.14 21:57:04 MSK)

Ссылка

Добавляет ли тормоза UTF8?

да, конечно

umren ★★★★★
(08.08.14 21:59:36 MSK)

Ссылка

Ответ на: комментарий от vurdalak 08.08.14 19:33:52 MSK

1-байтовая будет быстрее, чем многобайтовая. Инфа 143%

PreciousProtection ★
(08.08.14 22:12:57 MSK)

Ответ на: комментарий от PreciousProtection 08.08.14 22:12:57 MSK

Да. Но насколько заметна разница — зависит от обработчика.

~~vurdalak~~ ★★★★★
(08.08.14 22:16:23 MSK)

Ссылка

который производит поиск по массиву строк, по регекспам, и заметил тормоза на слабом железе.

https://ru.wikipedia.org/wiki/Алгоритм_Ахо_—_Корасик

i-rinat ★★★★★
(08.08.14 22:56:33 MSK)

Ссылка

Движки JS оптимизированы под работу с UTF-строками, так что если юзать регулярки, то отказываться не надо. Может, в алгоритме что-то не так? Вообще, какой движок JS используется?

border-radius ★
(08.08.14 23:26:47 MSK)

Ответ на: комментарий от ii343hbka 08.08.14 19:34:29 MSK

Потому что меньше особых случаев, которые надо обрабатывать.

В UTF-16 такой случай только один — непарные суррогаты. Все остальные пары байтов технически корректны. В UTF-8 случаев ~~шесть~~ семь: преждевременный обрыв последовательности; использование пяти- и шестибайтовых последовательностей; использование четырёхбайтовых последовательностей, кодирующих значения больше 10FFFF; overlong encoding; использование суррогатов; использование байтов FE и FF; некорректное начало последовательности. Каждый из этих случаев необходимо корректно обрабатывать.

Кроме того, меньше вариантов кодирования. В UTF-16 большая часть реально используемых символов влазит в два байта, поэтому некоторые тормоза с суррогатами приемлемы. В UTF-8 популярные символы занимают уже один, два, или три байта.

У UTF-8 есть свои плюсы: самосинхронизируемость и детектирование помех; совместимость с ASCII; меньше места на тексты, состоящие преимущественно из ASCII; независимость от порядка байт в слове. Но, очевидно, это не самая удобная кодировка для обработки строк в памяти. UTF-8 — хорошая кодировка для передачи и хранения строк.

ilammy ★★★
(09.08.14 00:05:09 MSK)
Последнее исправление: ilammy 09.08.14 00:08:50 MSK (всего исправлений: 1)

Ответ на: комментарий от ilammy 09.08.14 00:05:09 MSK

ого :)
спасибище!

ii343hbka ★★★
(09.08.14 00:12:22 MSK)

Ссылка

Написал небольшой поисковичок на JS

Скажи, а как именно ты задавал JS кодировку символов?

abs ★★★
(09.08.14 00:16:36 MSK)

Ответ на: комментарий от abs 09.08.14 00:16:36 MSK

Никак. Я первый раз слышу такое. На серверном js можно задать кодировку при операциях с файловой системой. А в браузерном — я хз. Строчку в НТМL поставил: <meta http-equiv=«content-type» content=«text/html; charset=windows-1251»/>, больше ничего. Я в этом особо не разбираюсь, если честно.

~~anonimous~~ ☆
(09.08.14 05:14:10 MSK) автор топика

Ответ на: комментарий от border-radius 08.08.14 23:26:47 MSK

v8. Кстати, тормозило изначально только на нем. Проверял в опере и фф — все нормально. Но мне нужен именно v8.

~~anonimous~~ ☆
(09.08.14 05:25:13 MSK) автор топика

Ответ на: комментарий от anonimous 09.08.14 05:14:10 MSK

Браузерный JS, по идее, работает только с UTF-8. Разве нет? Или это только запросов касается?

Suntechnic ★★★★★
(09.08.14 06:37:43 MSK)

Ответ на: комментарий от Suntechnic 09.08.14 06:37:43 MSK

А откуда такая инфа? Как бы там ни было, после перекодировки, скорость увеличилась.

~~anonimous~~ ☆
(09.08.14 06:45:45 MSK) автор топика

Ответ на: комментарий от Suntechnic 09.08.14 06:37:43 MSK

запросов

А что запросы? там что, спецсимволы чтоли? нахрена там UTF8?

~~anonimous~~ ☆
(09.08.14 06:48:23 MSK) автор топика

Ссылка

Ответ на: комментарий от anonimous 09.08.14 05:25:13 MSK

Тогда всё-таки копай алгоритм. V8 тем более оптимизирован для UTF-строк, а при перекодировке, кстати, регулярки могут срабатывать некорректно.

border-radius ★
(09.08.14 08:23:31 MSK)

Ссылка

Ответ на: комментарий от anonimous 09.08.14 05:14:10 MSK

"Поздравляю, Шарик, ты балбес". Метатеги указывают только на кодировку, в которой браузер будет отображать страницу, на строки в JS совершенно не влияют. Проблема однозначно в чём-то другом.

border-radius ★
(09.08.14 08:25:55 MSK)

Ответ на: комментарий от Suntechnic 09.08.14 06:37:43 MSK

Браузерный JS, по идее, работает только с UTF-8

Ты еще скажи, что сишечка работает только с UTF-32..

~~Eddy_Em~~ ☆☆☆☆☆
(09.08.14 08:41:35 MSK)

Ссылка

Ответ на: комментарий от border-radius 09.08.14 08:25:55 MSK

Ты хочешь сказать, что существуют какие-то отдельные директивы для браузерного JS-движка, задающие обработку строк в определенной кодировке?

~~anonimous~~ ☆
(09.08.14 08:49:30 MSK) автор топика

Ответ на: комментарий от anonimous 09.08.14 08:49:30 MSK

Не существует. Внутреннее представление строк в V8 - UTF-8 всегда.

border-radius ★
(09.08.14 08:55:24 MSK)

Ответ на: комментарий от border-radius 09.08.14 08:55:24 MSK

Я ни хрена не могу понять, о чем ты говоришь. Если с сервера придет документ с 866, например, откуда возьмется это «внутреннее представление»

~~anonimous~~ ☆
(09.08.14 08:58:45 MSK) автор топика

Ответ на: комментарий от anonimous 09.08.14 08:58:45 MSK

Если с сервера придет документ в 866, то при попытке, например, вывести его на консоль V8 всё равно будет пытаться распарсить его как UTF-8.

border-radius ★
(09.08.14 09:14:11 MSK)

Ссылка

Ответ на: комментарий от anonimous 09.08.14 06:45:45 MSK

Всё. Я раскопал откуда такая инфа даже. Не обращай внимание это была глупость которую я вычитал в глупом источники и которая была многократно подтверждена практикой, но на самом деле и правда не имеет никакого отношения к действительности.

Suntechnic ★★★★★
(10.08.14 11:36:24 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	String — это не primitive type

Development

Новый тип СУБД от Google

→

Похожие темы