GNU Grep 2.19: быстрее от 10 до 200 раз

0

1

Cегодня вышла новая версия программы GNU Grep 2.19. Джим Мейеринг (Jim Meyering) сообщает, что за 13 недель, прошедших со времени выхода прошлой версии, 4 разработчика сделали 152 коммита. Особое спасибо Норихиро Танака (Norihiro Tanaka) и Паулю Эггерту (Paul Eggert).

Улучшения

Значительно улучшена производительность, в типичных случаях на 10% и в некоторых случаях в 200 раз. Однако, производительность grep -P (то есть, при работе с регулярными выражениями с стиле Perl) в юникодных локалях стала только хуже. Это связано с исправлениями ошибок, которые могли приводить к падениям (см. ниже).

Исправление ошибок

grep больше не ошибается при работе с паттернами вида [a-[.z.]] ([.z.] обозначает collating symbol) Например, раньше в испаноамериканской локали grep работал неверно, а теперь работает правильно:
```
echo b | LC_ALL=es_US.UTF-8 grep '[a-[.ch.]]'
echo $ echo b | LC_ALL=es_US.UTF-8 ../src/grep '[a-[.ch.]]'
b
```
Также исправлена ошибка, когда неправильно обрабатывались регулярные выражения типа [^a], где a — collating symbol.
grep больше не ошибается с пустыми регулярными выражениями, когда они присутствуют в списке паттернов. Если в списке паттернов присутствует пустая строка, то должны находиться все исходные строки. Например, в 2.18:
```
$ pat='hello
'
$ echo world | grep -e "$pat"
world
$pat='\1hello
'
# ошибка!
$ echo world | grep -e "$pat"
$
```
(эта ошибка появилась в версии 2.5);
grep -C NUM педантично печатает разделитель, когда NUM равно 0, аналогично для -A и -B (ошибка присутствовала изначально);
grep, grep -F, grep -E теперь обрабатывают ошибки в кодировке паттернов таким же образом, как их обрабатывает движок обработки регулярных выражений GNU, учитывая, может ли ошибка находить части многобайтовых символов в данных (ошибка присутствовала изначально).
grep -w теперь правильно работает в многобайтовых локалях. То же касается паттернов '\<', '\>', '\b', '\B':
```
# grep 2.18
$ echo 'Привет, Мир' | grep '\<М'
$
# grep 2.19
$ echo 'Привет, Мир' | grep '\<М'
Привет, Мир
$
```
(ошибка присутствовала изначально);
grep -P теперь сообщает об ошибке и выходит, когда на вход поступают некорректные данные в кодировке UTF-8. Раньше программа могла упасть или зациклиться (ошибка появилась в grep-2.16);
grep -Pw теперь работает аналогично grep -w, искомая строка должна быть окружена символами, которые не могут быть частью какого-либо слова. Ранее, например, echo a@@a| grep -Pw @@ находила строку, а cho a@@a| grep -w @@ — нет. Теперь работают одинаково и строку не находят.
grep -i теперь правильно обрабатывает паттеры, содержащие символы в верхнем регистре. Например, в локали, содержащей символ 'ǈ' (U+01C8 LATIN CAPITAL LETTER L WITH SMALL LETTER J), 'grep -i ǈ' теперь находит и строку 'Ǉ' (U+01C7 LATIN CAPITAL LETTER LJ), и ǉ' (U+01C9 LATIN SMALL LETTER LJ).

>>> Подробности

Ссылка

←	DevConf 2014: Пишем функциональное, надежное и быстрое веб-приложение на Go

I2P 0.9.13

→

← 1 2 →

Теперь точно ОН.

~~burning_giraffes~~
(23.05.14 16:08:36 MSK)

Ссылка

Вендекапец!

~~zorg~~ ★★
(23.05.14 16:57:44 MSK)

Ссылка

ошибок, которые могли приводить к падениям

РЕШЕТО!

Igron ★★★★★
(23.05.14 16:59:56 MSK)

Кто пробовал, как оно?

Michail_Ul ★★
(23.05.14 17:09:28 MSK)

Ссылка

быстрее от 10 до 200 раз

в типичных случаях на 10% и в некоторых случаях в 200 раз.

Автор, определись, на 10% или в 10 раз.

anonymous
(23.05.14 17:14:32 MSK)

Ответ на: комментарий от anonymous 23.05.14 17:14:32 MSK

Автор, определись, на 10% или в 10 раз.

В десять раз — это слишком ~~сложно~~ быстро для пользователя.

d ★★★★
(23.05.14 17:32:30 MSK)

Вроде и в прошлый раз что то там говорили по ускорение=)

arcanis ★★★★
(23.05.14 17:35:27 MSK)

Ссылка

быстрее от 10 до 200 раз

Citius, Altius, Fortius!

sT331h0rs3 ★★★★★
(23.05.14 17:45:27 MSK)

Ссылка

В заголовке написано, что «от 10 раз», а в статье всего лишь про «на 10%». Нестыковка.

v9lij ★★★★★
(23.05.14 17:57:49 MSK)

Юзерам systemd grep не нужен!

Shadow ★★★★★
(23.05.14 18:06:41 MSK)

Однако, производительность grep -P в юникодных локалях стала только хуже. Это связано с исправлениями ошибок, которые могли приводить к падениям.

Почему бы им просто не заюзать libperl?

KennyMinigun ★★★★★
(23.05.14 18:16:30 MSK)

«На 10%» - это «в 1,1 раза».

~~prischeyadro~~ ★★★☆☆
(23.05.14 18:19:17 MSK)

Ссылка

Ответ на: комментарий от Shadow 23.05.14 18:06:41 MSK

Юзерам systemd grep не нужен!

systemctl searchstring bla-bla-bla

KennyMinigun ★★★★★
(23.05.14 18:21:30 MSK)

Ответ на: комментарий от KennyMinigun 23.05.14 18:21:30 MSK

systemd-grepd

yoghurt ★★★★★
(23.05.14 18:24:50 MSK)

Ответ на: комментарий от Igron 23.05.14 16:59:56 MSK

Опередил

expelled ★★
(23.05.14 18:25:42 MSK)

Ссылка

Ответ на: комментарий от KennyMinigun 23.05.14 18:16:30 MSK

Интересная мысль, кто быстрее грепает - perl или grep...

Shadow ★★★★★
(23.05.14 18:26:51 MSK)

сколько же говна из-за этого юникода.

Bad_ptr ★★★★★
(23.05.14 18:40:14 MSK)

Не думал что его есть куда ускорять. Я думал он даже jit использует. Оказалось что пока нет.

true_admin ★★★★★
(23.05.14 18:42:02 MSK)

Ссылка

Наконец-то замарковьредисили, блямбдии шевелятся?! ДГЕР жеж... xD

Woofywoof ★
(23.05.14 18:46:03 MSK)
Последнее исправление: Woofywoof 23.05.14 18:47:22 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Shadow 23.05.14 18:26:51 MSK

В смысле grep vs что-то вроде perl -ne 'print if /../' ? Скорее всего grep, там вроде обычно DFA, а NFA в отдельных случаях: гнутые расширения позволяют комбинировать backreferences с |, может еще случаи есть. Обычные ERE в общем случае точно должны быть быстрее.

anonymous
(23.05.14 18:49:45 MSK)

Ссылка

РЕШЕТО!

~~stevejobs~~ ★★★★☆
(23.05.14 18:55:28 MSK)

Ссылка

Почему всё grep да grep? А пошто cat никто не ускоряет?

greenman ★★★★★
(23.05.14 19:22:08 MSK)

sleep выпилили?

Reset ★★★★★
(23.05.14 19:30:49 MSK)

Юзал ack сначала, да тот быстрее. Потом узнал про ag (silverseacher) тот вообще рвёт на клочки - часто юзаю из вима. Ускорение за счёт многопоточности и вроде как своя функция readdir которая ещё на стадии чтения фильтрует.

anonymous
(23.05.14 19:39:30 MSK)

Ссылка

Ответ на: комментарий от Shadow 23.05.14 18:06:41 MSK

Да, у них ничего не грепается дабы просто загрузить ос.

anonymous
(23.05.14 20:02:25 MSK)

Ссылка

Ответ на: комментарий от Bad_ptr 23.05.14 18:40:14 MSK

Сколько же юникода из-за этого говна.

anonymous
(23.05.14 20:03:37 MSK)

Ссылка

А sed ускоряют?

Sorcerer ★★★★★
(23.05.14 20:10:20 MSK)

Хорошая новость. grep юзаю постоянно, и иногда на довольно больших файлах. Так-что улучшение производительности, как и фиксы багов, не могут не радовать.

lucentcode ★★★★★
(23.05.14 20:16:42 MSK)

Ссылка

Вот бы тут еще и OpenCL!

vasya_pupkin ★★★★★
(23.05.14 20:44:35 MSK)

Ссылка

Однако, производительность grep -P (то есть, при работе с регулярными выражениями с стиле Perl) в юникодных локалях стала только хуже. Это связано с исправлениями ошибок, которые могли приводить к падениям (см. ниже).

а нет ли специальной опции, котороя возвращала бы старое поведение, с багами?

next_time ★★★★★
(23.05.14 20:59:11 MSK)