sed и два пробела

0

0

Есть код sed 's/\s[^$]/\\&/g'<<<"$VAR" — заменяет пробелы кроме пробела в конце строки на экранированные.
Проблема в том, что если где-то идёт 2 пробела, он один не экранирует. Как сделать, чтоб экранировал все?
И я даже не понимаю, почему он так делает.
Если без [^$] — то нормально. Но [^$] нужно.

Ссылка

←	BIOS UEFI на ноутбуке

Grub и initrd на флешке

→

Показаны ответы на комментарий. Показать все комментарии.

Ответ на: комментарий от teod0r 19.02.15 10:06:16 UTC

Последняя Z не конец строки. Это просто Z. А конец, строки $.

anonymous
(19.02.15 10:13:08 UTC)

Ответ на: комментарий от anonymous 19.02.15 10:13:08 UTC

% echo "wow" | sed -e 's/$/[I am the end]/'
wow[I am the end]

anonymous
(19.02.15 10:14:33 UTC)

Ссылка

Ответ на: комментарий от anonymous 19.02.15 10:13:08 UTC

я думал [^$] означает "следующий символ не является концом строки". перепутал с 'look-forward'

teod0r ★★★★★
(19.02.15 10:18:02 UTC) автор топика
Последнее исправление: teod0r 19.02.15 10:21:32 UTC (всего исправлений: 1)

Ответ на: комментарий от anonymous 19.02.15 10:13:08 UTC

Последняя Z не конец строки.

Z это символ, а $ это место.

ОК, как ты это объяснишь

$ echo '$$$$'|sed 's/[^$]/Z/g'
$$$$

ы?

emulek ★
(19.02.15 10:20:40 UTC)

Ответ на: комментарий от teod0r 19.02.15 10:18:02 UTC

я думал [^$] означает «следующий символ не является концом строки»

не означает. Внутри [скобок] свои правила.

emulek ★
(19.02.15 10:21:43 UTC)

Ссылка

Ответ на: комментарий от emulek 19.02.15 10:20:40 UTC

ы?

sed не понимает?

teod0r ★★★★★
(19.02.15 10:25:22 UTC) автор топика

Ответ на: комментарий от teod0r 19.02.15 10:25:22 UTC

моя понимает, причём по-моему.

и да, хватит уже

man 7 regex

Obsolete («basic») regular expressions differ in several respects. '|', '+', and '?' are ordinary characters and there is no equivalent for their functionality. The delimiters for bounds are «\{» and «\}», with '{' and '}' by themselves ordinary characters. The parentheses for nested subexpressions are «$» and «$», with '(' and ')' by themselves ordi‐ nary characters. '^' is an ordinary character except at the beginning of the RE or(!) the beginning of a parenthesized subexpression, '$' is an ordinary characterexcept at the end of the RE or(!) the end of a parenthesized subexpression, and '*' is an ordinary character if it appears at the beginning of the RE or the beginning of a parenthesized subexpres‐ sion (after a possible leading '^').

emulek ★
(19.02.15 10:40:47 UTC)

Ответ на: комментарий от emulek 19.02.15 10:20:40 UTC

Короч, понял, что тупой прост. В данном случае [] — character class. В нём не работают в качестве $, ^ anchors.
А ступил из-за предплоложения, что исходный примере

echo ' ' | sed 's/[^$]/Z/g'

таки отработал и осоноваясь на версии teod0r решил объяснить ему.
И если следовать логике мой пример должен быть таким:

% echo '123' | sed 's/[$]/хуй а не конец строки/g'
123

Сорь.

anonymous
(19.02.15 11:21:49 UTC)

Ответ на: комментарий от anonymous 19.02.15 11:21:49 UTC

sed и два пробела (комментарий)

Yep. Вот я про это же.

anonymous
(19.02.15 11:24:28 UTC)

Ссылка

Ответ на: комментарий от emulek 19.02.15 10:40:47 UTC

В данном случае [] — character class.

угу, там ^ работает как отрицание (в начале класса).

вот-бы ещё замутили такую ерунду в подвыражениях, было-бы хорошо.

emulek ★
(19.02.15 11:32:01 UTC)

Ссылка

Ответ на: комментарий от emulek 19.02.15 10:20:40 UTC

ok

$ это место

~ $ echo '$$$$\n'|sed 's/[^$]/Z/g'
$$$$ZZ

wakuwaku ★★★★
(19.02.15 11:50:18 UTC)
Последнее исправление: wakuwaku 19.02.15 11:51:52 UTC (всего исправлений: 1)

Ответ на: ok от wakuwaku 19.02.15 11:50:18 UTC

и что?

emulek ★
(19.02.15 11:59:26 UTC)

Ответ на: ok от wakuwaku 19.02.15 11:50:18 UTC

% echo '$$$$\n'|sed 's/[^$]/Z/g'
$$$$

 % sed --version
sed (GNU sed) 4.2.2
...

anonymous
(19.02.15 12:02:28 UTC)

Ответ на: комментарий от emulek 19.02.15 11:59:26 UTC

неужели так сложно представить LF?

точно такой же символ

wakuwaku ★★★★
(19.02.15 12:02:39 UTC)

Ответ на: комментарий от anonymous 19.02.15 12:02:28 UTC

попробуй \r\n, или шелл фильтрует

wakuwaku ★★★★
(19.02.15 12:05:32 UTC)

Ответ на: комментарий от wakuwaku 19.02.15 12:02:39 UTC

неужели так сложно представить LF? точно такой же символ

во первых, у тебя _два_ символа: «\» и «n». Во вторых, \n это, по мнению sed, особый символ. В строках sed \n _никогда_ не бывает(если его ты сам не засадишь).

В третьих, что ты доказываешь? Что мне трудно представить LF?

emulek ★
(19.02.15 12:29:56 UTC)

Ответ на: комментарий от emulek 19.02.15 12:29:56 UTC

_два_
особый символ

противоречишь себе.

_никогда_ не бывает

всегда есть Ox0A(EOL, почти, но LF у нас), кроме случаев, когда там только одна строка с виртуальным EOF на конце. EOF — место, EOL — вполне себе символ, либо же последовательность оных.

wakuwaku ★★★★
(19.02.15 13:35:46 UTC)

Ответ на: комментарий от wakuwaku 19.02.15 13:35:46 UTC

противоречишь себе.

читать не умеешь? Повторю: в строках sed \n _никогда_ не бывает(если его ты сам не засадишь).

всегда есть Ox0A(EOL, почти, но LF у нас), кроме случаев, когда там только одна строка с виртуальным EOF на конце. EOF — место, EOL — вполне себе символ, либо же последовательность оных.

ты неадекватен. Я же сказал «в строках sed».

И ты ответил: что ты доказываешь?

emulek ★
(19.02.15 13:47:29 UTC)

Ответ на: комментарий от emulek 19.02.15 13:47:29 UTC

Sed получает строки из файлов, причём тут «строки sed»? Ты наркоман?

wakuwaku ★★★★
(19.02.15 13:48:52 UTC)
Последнее исправление: wakuwaku 19.02.15 13:49:53 UTC (всего исправлений: 1)

Ответ на: комментарий от wakuwaku 19.02.15 12:05:32 UTC

Не работает (

 % echo '$$$$\r\n'|sed 's/[^$]/Z/g'
$$$$

 %

anonymous
(19.02.15 13:51:08 UTC)

Ответ на: комментарий от wakuwaku 19.02.15 13:48:52 UTC

Sed получает строки из файлов, причём тут «строки sed»?

при том, что sed всегда грузит строку до EOL, потом обрабатывает, а потом выгружает.

Потому якорь $, это граница между последним символом и EOL. Сам EOL в строку сам никогда не попадает, потому что sed, как его встретит, так сразу начинает обрабатывать.

У меня

$ echo '$$$$\n'|sed 's/[^$]/Z/g'
$$$$ZZ

и тут нет ничего удивительного:

$ не матчится с [^$]

символы «\» и n матчатся, потому каждый символ меняется на Z. Получается $$$$ZZ.

И что?

emulek ★
(19.02.15 13:58:35 UTC)

Ответ на: комментарий от emulek 19.02.15 13:58:35 UTC

Хм, у меня zsh специфика была.

$ echo '$$$$\n'|sed 's/[^$]/Z/g'
$$$$ZZ

Понаставят всяких shell'ов, а потом толкуй с ними.

anonymous
(19.02.15 14:04:18 UTC)

Ссылка

Ответ на: комментарий от anonymous 19.02.15 13:51:08 UTC

У меня так:

~ % echo '$$$$\r\n'|sed 's/[^$]/Z/g'                                                                                                                                                                           [0]
$$$$Z

~ % echo '$$$$\n'|sed 's/[^$]/Z/g'                                                                                                                                                                             [0]
$$$$

~ % echo '$$$$\r'|sed 's/[^$]/Z/g'                                                                                                                                                                             [0]
$$$$Z
~ %                                                                                                                                                                                                            [0]

по кажется это фича zsh, он пытается быть eye candy

~ % echo -n '$$$$\r\n'>/tmp/tmp0002.tmp;sed 's/[^$]/Z/g' /tmp/tmp0002.tmp                                                                                                                                      [0]
$$$$Z
~ %

~ $ echo -n '$$$$\r\n'>/tmp/tmp0002.tmp;sed 's/[^$]/Z/g' /tmp/tmp0002.tmp
$$$$ZZZZ~ $

wakuwaku ★★★★
(19.02.15 14:08:14 UTC)

Ответ на: комментарий от emulek 19.02.15 13:58:35 UTC

символы «\» и n матчатся

см. выше. Мы возвращаемся к тому, что 0x0A — это LF.

https://upload.wikimedia.org/wikipedia/commons/e/e0/ASCII_Code_Chart-Quick_re...

wakuwaku ★★★★
(19.02.15 14:12:37 UTC)

Ответ на: комментарий от wakuwaku 19.02.15 14:08:14 UTC

просто выполни echo БЕЗ sed. Можешь выхлоп загнать в hexdump.

emulek ★
(19.02.15 14:15:42 UTC)

Ответ на: комментарий от wakuwaku 19.02.15 14:08:14 UTC

упс, перепутал -e с -n :3

wakuwaku ★★★★
(19.02.15 14:16:16 UTC)

Ссылка

Ответ на: комментарий от emulek 19.02.15 14:15:42 UTC

Лучше объясни мне это:

~ $ echo -en '$$$$\n'>/tmp/tmp0002.tmp;sed 's/[^$]/Z/g' /tmp/tmp0002.tmp
$$$$                                                                                                                                                                                                               
                                                                                                                                                                                                                   
~ $

~ $ echo -en '$$$$\r\n'>/tmp/tmp0002.tmp;sed 's/[^$]/Z/g' /tmp/tmp0002.tmp                                                                                                                                          
$$$$Z                                                                                                                                                                                                              
                                                                                                                                                                                                                   
~ $

wakuwaku ★★★★
(19.02.15 14:17:55 UTC)
Последнее исправление: wakuwaku 19.02.15 14:20:01 UTC (всего исправлений: 2)

Ответ на: комментарий от wakuwaku 19.02.15 14:12:37 UTC

см. выше. Мы возвращаемся к тому, что 0x0A — это LF.

какая разница, что такое LF?

может у вас огрызко-проблемы, или шелло-проблемы, мне пофиг, у меня Linux и bash.

\n == EOL == LF == 0x0A

\r == CR == 0xOD

колись, что у тебя.

emulek ★
(19.02.15 14:20:04 UTC)

Ссылка

Ответ на: комментарий от wakuwaku 19.02.15 14:17:55 UTC

Лучше объясни мне это

мне отсюда не видно.

emulek ★
(19.02.15 14:21:24 UTC)

Ответ на: комментарий от emulek 19.02.15 14:21:24 UTC

~ $ echo -en '$$$$\r\n'|hexdump
0000000 2424 2424 0a0d                         
0000006
~ $ echo -en '$$$$\n'|hexdump
0000000 2424 2424 000a                         
0000005
~ $

0x0d матчится sed'ом как EOL, а 0x0a — нет? Какие-то шеллопроблемы. Припоминаю читал книжку, там написание шелла как раз рассматривалось, в том числе обработка спецсимволов и escape-последовательностей.

wakuwaku ★★★★
(19.02.15 14:25:54 UTC)
Последнее исправление: wakuwaku 19.02.15 14:27:10 UTC (всего исправлений: 2)

Ответ на: комментарий от wakuwaku 19.02.15 14:25:54 UTC

0x0d матчится sed'ом как EOL, а 0x0a — нет?

в Linux строчки принято заканчивать 0x0a (\n), а 0x0d (\r) — просто символ, невидимый, и на моём терминале работает как CR

$ echo -e 'ABCDEF\rXYZ'
XYZDEF

emulek ★
(19.02.15 14:50:09 UTC)

Ответ на: комментарий от emulek 19.02.15 14:50:09 UTC

на моём терминале

это и есть CR. Покажи echo -en '$$$$\r'>/tmp/tmp0002.tmp;sed 's/[^$]/Z/g' /tmp/tmp0002.tmp

wakuwaku ★★★★
(19.02.15 14:54:13 UTC)

Ответ на: комментарий от wakuwaku 19.02.15 14:54:13 UTC

$ echo -en '$$$$\r'>/tmp/tmp0002.tmp;sed 's/[^$]/Z/g' /tmp/tmp0002.tmp
$$$$Z

всё верно: \r это не доллар, и он матчится. И тут нет CR в выводе. На входе его тоже нет.

$ echo -e '$$$$\r'|sed 's/[^$]/Z/g'
$$$$Z

тоже самое, но красивее.

$ echo -e '$$$$\r\n\r'|sed 's/[^$]/Z/g'
$$$$Z
Z

как видишь, LF тут вообще в обработке не участвует, а напрямую едет на вывод.

$ echo -e '\n\n\r\n'|sed 's/[^$]/Z/g'


Z

emulek ★
(19.02.15 15:04:50 UTC)

Ответ на: комментарий от emulek 19.02.15 15:04:50 UTC

Твоя правда, наверное. Я под веществами. И эмм, мне было скучно, извини. :>

Так что, с \r это мои глюки, но \n sed всё же воспринимает как конец строки:

~ $  echo -en '$$$$\n\n\r\r11\n'|sed 's/$/Z/g'
$$$$Z
Z
11Z
~ $

Теперь можно обсудить то, что я сказал изначально, а именно \n преобразуется во вполне определённые байты, т.е. является спецсимволом (пусть и невидимым, но он там есть) LF, который нужно учитывать при разборе строк.

wakuwaku ★★★★
(19.02.15 15:23:03 UTC)
Последнее исправление: wakuwaku 19.02.15 15:23:36 UTC (всего исправлений: 1)

Ответ на: комментарий от wakuwaku 19.02.15 15:23:03 UTC

Я под веществами.

\n sed всё же воспринимает как конец строки

как ещё оно может воспринимать конец строки?

\n преобразуется во вполне определённые байты, т.е. является спецсимволом (пусть и невидимым, но он там есть) LF, который нужно учитывать при разборе строк.

в sed скрипте нельзя. Нет там такого символа. Я его юзаю как раз тогда, когда мне нужен какой-то маркёр, которого ТОЧНО не будет.

например:

$ echo "ABCDEFGH"|\
sed -r 's/^/\n/;s/$/\n/;bl;:l;s/(.*)(\n.)(.*)(.\n)(.*)/\1\4\3\2\5/;tl;s/\n//g'
HGFEDCBA

разворот строки наоборот, попробуй «улыбоктебедедмакар» например.

emulek ★
(19.02.15 15:47:03 UTC)

Ответ на: комментарий от emulek 19.02.15 15:47:03 UTC

Ну вот это мне и хотелось выяснить, мог бы сразу так и сказать.

wakuwaku ★★★★
(19.02.15 15:58:54 UTC)

Ответ на: комментарий от wakuwaku 19.02.15 15:58:54 UTC

ну теперь изучай мой скрипт. Как изучишь — приходи ☺

emulek ★
(19.02.15 16:06:32 UTC)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	BIOS UEFI на ноутбуке

General

Grub и initrd на флешке

→

ok

Похожие темы