LINUX.ORG.RU

GNU grep 2.13

 ,


0

1

4 июля Джим Мейеринг сообщил о выходе очередной версии GNU grep. За десять недель разработки 4 программиста сделали 24 коммита, отмечает он.

Исправлено две ошибки появившиеся в версии 2.6:

  • grep -i в многобайтовых локалях теперь правильно выводит строки, содержащие буквы, чьё представление в верхнем и нижнем регистре занимает различное число байтов. Это, например, «и-с-точкой» в турецком языке. Прежние версии GNU grep могли либо пропустить часть строки, либо, наоборот, вывести мусор;
  • опции --include и --exclude теперь снова можно совмещать друг с другом. Так, «grep --include='*.[ch]' --exclude='system.h' PATTERN *» читает все файлы *.c и *.h, кроме system.h.

Новые особенности:

  • grep без опции -z теперь считает разреженные файлы бинарными, если можно легко определить, что файл действительно разреженный.

>>> Подробности

★★★★★

Проверено: catap ()
Последнее исправление: catap (всего исправлений: 3)
Ответ на: комментарий от drull

Порядка трёх сотен. Какое правило в русском языке имеет такой же порядок исключений? :)

Binary ★★★★★
()
Ответ на: комментарий от Hertz

То ли дело кириллица/латиница − комбинирование символов в слова, всё просто и понятно. И изучать язык легче на много порядков. Проще читать, проще писать и печатать. Даже если не знаешь значения слова, то хотя бы можешь прочитать и запомнить его чтобы потом узнать что почём. Короче, сливает азиатчина...

Если б все писали иероглифы, то письменно все бы друг друга понимали. Кстати в повседневной жизни 4-5 тыщ иероглифов хватает вполне. Они достаточно логичные (по своему, по китайски). В словаре реально искать иероглиф, который видишь впервые.

Прикинь, что например амеры думают про кириллицу, особенно глядя на твою аватарку.

Esh ★★★★
()
Ответ на: комментарий от Binary

Правда? Где мне прочесть правила?

Я думаю buddhist имеет с виду, что там не все «от балды» а есть заметные закономерности.

Иначе говоря, правил типа «Ж и Ш пиши с буквой И» там нет, но зато эти «неправильности» понятны для людей, знакомых с историей языка.

P.S. К тому же, этих «неправильных» глаголов в английском довольно мало.

rtvd ★★★★★
()
Ответ на: комментарий от Xintrea

Попробуй заменить через sed подстроку в текстовике гигов на 20, и увидишь что будет с памятью и свопом, если у тебя 4 гига оперативки.

У меня 8, но, что будет я хорошо знаю. :)
Ладно, sed это хорошо, а что про grep-то? У тебя есть двадцатигиговые файлы без единого /n?

imul ★★★★★
()
Ответ на: комментарий от gena2x

Хм, походу действительно допилили. Раньше было просто нереально обработать файл, размер которого больше память+своп.

Xintrea ★★★★★
()
Ответ на: комментарий от Xintrea

Хм, походу действительно допилили. Раньше было просто нереально обработать файл, размер которого больше память+своп.

Ты вероятно просто пытался делать sed -i, или работать с файлами без перевода строк.

gena2x ★★★
()
Ответ на: комментарий от imul

Вот мы и приходим к идее создания искусственного языка с письменностью на основе образов, ведь наш мозг слова, мысли и понятия сохраняет в виде сложных образов. Если бы их можно было извлекать и записывать минуя наши стандартные каналы общения - общаться с машиной нам было бы гораздо легче. Правда «письменность» стала бы невероятно сложной, подходящей только для работы с машинными интерфейсами. На самом деле и подход китайцев к письменности, и подход европейцев - оба имеют свои плюсы и минусы. Нужна возможность обмениваться образами, на уровне которых работает мозг.

lucentcode ★★★★★
()
Ответ на: комментарий от overmind88

Да вьетнамцев привели в пример. А про различия в сложности китайского языка и вьетнамского не упомянули. Про то, что эта письменность общая для многих непохожих друг на друга диалектов - тоже. Убрать её - и китайцы перестанут понимать друг друга вообще:)

lucentcode ★★★★★
()
Ответ на: комментарий от lucentcode

Ой, не стоит, пожалуй образы прямо из мозга извлекать. Безопаснее как-нибудь по старинке, а то же побьют.

imul ★★★★★
()
Ответ на: комментарий от buddhist

Например, здесь: http://www.study.ru/support/verb/

Люди даже поиск по вторым/третьим формам делают, чтобы проще в этом ориентироваться, а вы говорите мало!

Binary ★★★★★
()
Ответ на: комментарий от rtvd

Там не закономерности, там есть сходства. Но явного порядка нет. Когда начинаешь их учить, это понимаешь, и это ещё больше рвёт шаблон, что вот вроде идут похожие, а тут раз и вся закономерность к чертям.

Ну и правила, это всё же правила, безо всяких притянутых за уши «закономерностей». Насколько я понимаю, неправильные глаголы появились как упрощение частоиспользуемых глаголов. При таком порядке образования сложно надеятся, что они упростятся по каким-то там правилам.

ЗЫ. конечно же, всё сказанное имхо по собственному опыту изучения языка.

Binary ★★★★★
()
Ответ на: комментарий от lucentcode

Твоя аналогия на счёт низкоуровневого английского и высокоуровневого китайского некорректна. Высокоуровневый язык подразумевает возможность построения сложных абстракций из простых элементов. Правда ли, что каждый китайский иероглиф состоит из более простых слов, которые вместе по значению организуют сложное слово?

Тут скорее лучше другая аналогия: язык с иероглифами - CISC, с буквами - RISC.

unlog1c ★★★
()
Ответ на: комментарий от gena2x

sed -i

Он просто создает временный файл, но не держит все в памяти. На больших файлах его можно успеть увидеть.

YAR ★★★★★
()
Ответ на: комментарий от unlog1c

возможность построения сложных абстракций из простых элементов.

Есть такое.

каждый китайский иероглиф состоит из более простых слов, которые вместе по значению организуют сложное слово?

Не каждый. Но таких полно. Хотя бы тройки вроде 木林森. Вообще, зайди сюда и пощёлкай по случайным иероглифам, желательно тем, что выглядят достаточно брутально.

x3al ★★★★★
()
Ответ на: комментарий от Esh

Если б все писали иероглифы, то письменно все бы друг друга понимали.

<sarcasm>Как японцы китайцев.</sarcasm>

x3al ★★★★★
()
Ответ на: комментарий от x3al

Спасибо за информацию, познавательно.

Спрошу у вас, как предположительно человека осведомленного: какой основной способ набора иероглифов на клавиатуре? Нечто по типу автозамены, вроде набираешь несколько простых, бах по пробелу и они превращаются в один?

unlog1c ★★★
()
Ответ на: комментарий от unlog1c

Те, кто знают пиньинь, обычно юзают его. Особенно вантузятники, M$-пиньинь офигеннен, впрочем, поделки от байду и гугля тоже ничего. Работает так: набирается упрощённая транскрипция латинницей, всплывают варианты (по дефолту сами) конверсии, хоткеями выбираешь нужный, предсказание печати, все дела.

Среди тех, кто не знает или не хочет печатать пиньинем (популярно среди юзеров достаточно далёких от путунхуа языков) встречаются direct-han методы ввода. Иероглифы как правило определены однозначным сочетанием простых частей. Т.е. учишь раскладку некоторое время, потом можешь без автозамен писать сразу иероглифами, не думая об их путунхуа-чтении. Примеры: Cangjie тот же wubizixing. В IME часто реализуются свистелки вроде wildcard key и некоторого предсказания, но если очень хочется, то можно закостылить их через обычный xcompose, благо, сочетание клавиш однозначно определяет ханзи.

Плюс есть всякие извращения для юзеров мобильников типа wubihua, да и банальное рисование иероглифов с распознаванием (работает за счёт строго определённого порядка написания).

Были попытки сделать метод ввода с вводом сложных иероглифов через простые именно через те части, что выделяют этимологически, но они заглохли. Потому, что есть несколько иероглифов, фигово в это вписывающихся. Современные wubizixing и cangjie близки к этому, но разбивают ханзи на графические куски, выкидывая лишнее, а не на этимологические.

x3al ★★★★★
()
Последнее исправление: x3al (всего исправлений: 1)
Ответ на: комментарий от x3al

Спасибо и за этот ответ.

Впрочем, я спросил не просто так. Как вы считаете, если для того, чтобы набирать на «пиньинь» нужно знать транскрипцию латиницей, то целесообразно ли будет и уметь читать эту латинскую транскрипцию? И вообще пользоваться ею?

Не совсем правда понимаю, как эта транскрипция может быть универсальна, если вы сами (если я не ошибаюсь) сказали, что иероглифы помогают понимать друг друга через фонетические различия диалектов. Как в таком случае разговаривающие на разных диалектах могут знать единую транскрипцию?

unlog1c ★★★
()
Ответ на: комментарий от unlog1c

Так пиньинь же знают не все, отсюда и альтернативные методы набора. И при наборе даже не нужны тона (без которых тебя никто не поймёт).

При наборе транскрипции предложат выбор. Иногда из десятка вариантов. Даже с тонами омофонов овердофига, поэтому путём вьетнамцев носители путунхуа пойти не могут, даже если отбросить политические причины. С другой стороны, некоторые другие языки (кантонский, к примеру) можно латинизировать с тонной диакритики (6 тонов против 4 в путунхуа, следовательно, пиньине).

x3al ★★★★★
()
Ответ на: комментарий от x3al

Да уж, непростая ситуация.

А как например со скоростью набора? Соразмерно ли время набора на китайском (понимаю, что их много, предположим на «самом простом», если так можно выразиться) при самом эффективном методе с набором, скажем, на английском? Интересно и для двух профессиональных наборщиков, и для двух обычных пользователей.

unlog1c ★★★
()
Ответ на: комментарий от unlog1c

Порядка 160 символов в минуту для wubizixing давно норма и 300 вполне ок для профессионала, но современные умные IME на пиньине на типичной речи спокойно обгоняют любителей (за счёт предсказания, такого в английском нет). Плюс китайские слова заметно короче, поэтому сравнивать только по скорости набора некорректно. Может, по числу бит в секунду...

Все цифры для упрощённого китайского, в традиционном всё сложнее.

x3al ★★★★★
()
Ответ на: комментарий от x3al

Плюс китайские слова заметно короче, поэтому сравнивать только по скорости набора некорректно. Может, по числу бит в секунду...

Я имел в виду не скорость набора отдельных символов, естественно. Скажем, два одинаковых текста на разных языках.

Но в целом картиная ясна. Благодарю за то, что не поленились ответить.

unlog1c ★★★
()
Ответ на: комментарий от leave

«Руками»? Ну что вы, библиотек полно. Единственный недостаток UTF-8 - переменная длина символа, что затрудняет прямой доступ, но такое в чистом виде редко надо. Обычно оперировать приходится с указателями на первое/последнее вхождение подстроки и т.п.

A-234 ★★★★★
()
Последнее исправление: A-234 (всего исправлений: 1)
Ответ на: комментарий от Esh

В словаре реально искать иероглиф, который видишь впервые.

А кстати, а как они их сотрируют в словаре? Да еще и запоминают последовательность из 4-5 тысяч? Здорово, наверное, искать в в словаре неизвестный иероглиф на неизвестном месте...

AVL2 ★★★★★
()
Ответ на: комментарий от A-234

Единственный недостаток UTF-8 - переменная длина символа, что затрудняет прямой доступ,

А выделение памяти под строку в n-символов, замену символов в строке и вообще редактирование куска текста не затрудняет?

AVL2 ★★★★★
()
Ответ на: комментарий от AVL2

Кто-то оперирует утф-8 строками в памяти? Я думал её только для трансфера и хранения данных используют, а при работе перекодируют в кодировку с постоянной длиной.

Binary ★★★★★
()
Ответ на: комментарий от Binary

Кто-то оперирует утф-8 строками в памяти? Я думал её только для трансфера и хранения данных используют, а при работе перекодируют в кодировку с постоянной длиной.

что есть оверхед.

AVL2 ★★★★★
()
Ответ на: комментарий от AVL2

А кстати, а как они их сотрируют в словаре?

По алфавиту (пиньинь же), либо по числу черт.

Здорово, наверное, искать в в словаре неизвестный иероглиф на неизвестном месте

Есть несколько индексов для поиска; по ключу, 4угольный, по числу черт. Но с распространением электронных словарей оно не слишком нужно, в них хоть по рисунку можно искать.

x3al ★★★★★
()
Последнее исправление: x3al (всего исправлений: 1)
Ответ на: комментарий от anonymous

«w» в латинском алфавите отсутствовал.

Поэтому я и написал через плюс. Если быть совсем точным, то в классической латыни не различались I и J, V и U. J и U - такие же заплатки к латинице, как и W.

Bagrov ★★★★★
()
Ответ на: комментарий от AVL2

Замену, редактирование, поиск не затрудняет. Выделение памяти под n символов конечно становится уже невозможным, но вы ведь не удивляетесь тому, что смс на русском и английском языках имеют разное максимальное количествор символов. Тут дело скорее в подходе.

A-234 ★★★★★
()
Ответ на: комментарий от A-234

смс то причём тут? там в обоих вариантах кодировки с фиксированным к-вом байт на символ.

Binary ★★★★★
()
Ответ на: комментарий от Binary

Ну и правила, это всё же правила, безо всяких притянутых за уши «закономерностей». Насколько я понимаю, неправильные глаголы появились как упрощение частоиспользуемых глаголов. При таком порядке образования сложно надеятся, что они упростятся по каким-то там правилам.

Понимаешь неправильно.

Неправильные глаголы это глаголы, что пока еще не упрощены.

Упрощаются в первую очередь малоиспользуемые слова, т.к. человек слышит одну форму слова и потом пользуется словом, образуя другие формы по привычному шаблону. А частоиспользуемые слова упрощаются плохо, т.к. их каждый ребенок слышит с детства и легко запоминает все формы так, как их произносят окружающие.

Похожий эффект есть и в русском языке. В русском есть шесть падежей. Это вроде как правило. Но есть как минимум одно слово, где используется звательный падеж. Как ты думаешь, какое это слово и часто ли его используют? :-)

Что до того, что неправильные глаголы в английском изменяются по-разному, так это тоже тривиально. Британию завоёвывали много раз и привнесли слова разных языков вместе с правилами словообразования. Например, слово «королевский» на английском может быть «kingly», «royal» и «regal». Все варианты в принципе эквивалентны. Разница лишь в происхождении. «kingly» идет из германской группы, «royal» из французского а «regal» из латыни.

rtvd ★★★★★
()
Ответ на: комментарий от leave

Нравится парсить UTF-8 руками?

Руками вообще-то никто ничего не парсит.

Что до сложности парсинга UTF-8 в принципе, у Вас есть заметно более простые альтернативы, да еще и без допольнительных проблем?

rtvd ★★★★★
()
Ответ на: комментарий от rtvd

А, кажется, вкурил. Ну да хоть так, хоть так, результат то один.

Binary ★★★★★
()
Ответ на: комментарий от x3al

<sarcasm>Как японцы китайцев.</sarcasm>

Мне один тайванец говорил что так и спасался в японии - писал на бумажке и его понимали. А на англ отвечать отказывались почему-то

Esh ★★★★
()
Ответ на: комментарий от AVL2

А кстати, а как они их сотрируют в словаре? Да еще и запоминают последовательность из 4-5 тысяч? Здорово, наверное, искать в в словаре неизвестный иероглиф на неизвестном месте...

Все иероглифы состоят из ключей, которых немного. По ним и ищут. Я уже подробности забыл (много лет прошло с универа).

Esh ★★★★
()
Ответ на: комментарий от Binary

смс то причём тут? там в обоих вариантах кодировки с фиксированным к-вом байт на символ.

Нет конечно, английских букв в два раза больше влезает и сообщение может содержать как те так и другие одновременно.

Замени кириллическую букву на латинскую...

Никакой принципиальной разницы между заменой «ы» на «S», и заменой «grep» на «sed» нету. Суть - замена одной последовательности на другую с возможным сдвигом, тут на кодировку вообще пофиг.

A-234 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.