Я люблю тебя, PHP!

Ответ на: комментарий от bk_ 22.07.12 22:44:04 MSK

Не нулевой символ сам по себе, а несоответствие стандарту.

tiandrey ★★★★★
(22.07.12 22:48:42 MSK)

Ответ на: комментарий от vasily_pupkin 22.07.12 22:45:01 MSK

Нет, ты ошибаешься. Вместо того, чтобы _остановиться_ и проверить, все ли токены закрыты, оно пытается _продолжить_ парсинг и натыкается на «некорректный» с позиции грамматики символ.

Отсюда вопрос: какого хера в грамматике языка отсутствует символ '\0'?

Изучив сей документ http://www.ietf.org/rfc/rfc4627.txt , в котором действительно отсутствует описание поведения при встрече с символом \0, следует сказать, что разработчики явно *недосмотрели* эту очевидную ситуацию, и это камень в их огород.

bk_ ★★
(22.07.12 22:54:09 MSK) автор топика

Ответ на: комментарий от tiandrey 22.07.12 22:48:42 MSK

Вот именно поэтому стандарт содержит недоработку, так как пропускает такую очевидную ситуацию.

bk_ ★★
(22.07.12 22:55:01 MSK) автор топика

Ответ на: комментарий от bk_ 22.07.12 22:55:01 MSK

Ну возьми да напиши разрабам, что их стандарт содержит такую существенную (по твоему профессиональному мнению) недоработку. А пока этого нет в стандарте, глупо жаловаться, что оно не работает - оно и не должно работать.

tiandrey ★★★★★
(22.07.12 22:58:18 MSK)

Ответ на: комментарий от tiandrey 22.07.12 22:58:18 MSK

Судя по твоему тону, ты принципиально не согласен со мной в том, что это недоработка именно стандарта?

Стандарт пишут такие же люди, которые могут допустить и допускают ошибки, недосмотры и т.п. Этот пример - один из них.

Твоя же позиция звучит как «раз есть стандарт - плевать что он содержит очевидную недоработку! Плевать, что решение этого сходу неочевидно! Плевать, ведь разработчики стандарта умнее нас!».

bk_ ★★
(22.07.12 23:01:33 MSK) автор топика

Ответ на: комментарий от bk_ 22.07.12 23:01:33 MSK

Судя по твоему тону, ты принципиально не согласен со мной в том, что это недоработка именно стандарта?

Я тоже не согласен. Это не дает абсолютно никаких преимуществ. Или, может, любые мусорные символы разрешить?

note173 ★★★★★
(22.07.12 23:08:51 MSK)

Ответ на: комментарий от bk_ 22.07.12 20:51:42 MSK

Где сказано, что \0 инициирует *такое* поведение?

«потоки YAML используют печатаемые Unicode-символы, как UTF-8, так и UTF-16»

Всё, что не укладывается в эту доктрину - это и есть проблема.

Вам остаётся лишь смириться и следовать этим правилам. Либо продолжать впустую и безрезультатно кричать на ЛОРе об якобы проблеме в реализации сторонних парсеров, которые «спотыкаются» на сгенерированном Вами контента.

P.S. есть ещё третий путь: выработать свои правила и заставить окружающих следовать им.

Slavaz ★★★★★
(22.07.12 23:08:56 MSK)

Ссылка

Ответ на: комментарий от bk_ 22.07.12 22:44:04 MSK

По-честному, '\0' останавливать парсер.

Почему? Не во всех системах \0 это конец строки, в некоторых используются другие символы, другие символы тоже должны останавливать парсер?
Для си это работает, потому что си воспринимает \0 как конец строки, для других языков это просто часть строки.
И к слову, есть вероятность, что си неправильно будет парсить json, в середине которого есть \0.

Tark ★★
(22.07.12 23:10:04 MSK)

Ответ на: комментарий от note173 22.07.12 23:08:51 MSK

А вариант написать автору стандарта и спросить? Я так и сделаю, ведь наверняка он лучше всех аналитиков лора вместе взятых знает, почему так было сделано.

bk_ ★★
(22.07.12 23:10:14 MSK) автор топика

Ссылка

Ответ на: комментарий от Tark 22.07.12 23:10:04 MSK

есть вероятность, что си неправильно будет парсить json, в середине которого есть \0.

Абсолютно верно.

http://www.digip.org/jansson/doc/2.3/apiref.html#string

Normal null terminated C strings are used, so JSON strings may not contain embedded null characters. All other Unicode codepoints U+0001 through U+10FFFF are allowed.

Но *где* используются строки с \0 в середине?

bk_ ★★
(22.07.12 23:11:59 MSK) автор топика

Ответ на: комментарий от bk_ 22.07.12 23:11:59 MSK

Да хоть в том же javascript:
«hello\0hello».search(«\0») = 5
Выводит естественно без \0, так как символ непечатный.

Tark ★★
(22.07.12 23:19:13 MSK)

Ответ на: комментарий от Tark 22.07.12 23:19:13 MSK

Я имел ввиду *зачем* и *почему* используют \0 в середине?

bk_ ★★
(22.07.12 23:22:19 MSK) автор топика

Ответ на: комментарий от bk_ 22.07.12 23:01:33 MSK

Именно. Он должен быть человекочитаемым, это его главная фича. А всякие управляющие символы там ни к чему. А ты почему-то вцепился в null-terminated strings, и не можешь сдвинуть точку зрения.

tiandrey ★★★★★
(22.07.12 23:25:12 MSK)

PHP виноват в том, что твой говнокод на C вставил '\0' куда не положено?

Deleted
(22.07.12 23:28:01 MSK)

Ссылка

Ответ на: комментарий от bk_ 22.07.12 23:22:19 MSK

Я имел ввиду *зачем* и *почему* используют \0 в середине?

В utf-16 легко можно встретить нулевые байты в любом месте. Utf-8 от этого защищен.

note173 ★★★★★
(22.07.12 23:29:18 MSK)

Ответ на: комментарий от tiandrey 22.07.12 23:25:12 MSK

А ты почему-то вцепился в null-terminated strings, и не можешь сдвинуть точку зрения.

Правильно, не могу, потому что постоянно работаю с языком С. А там \0 имеет одно и только одно назначение, но никак не разделители в середине строки. За код в продакшене, который показал Tark выше, надо гнать ссаными тряпками вон из профессии.

У \0 *всегда* была только одна роль - символ в конце строки. Потом пришли Вирты и придумали pascal-style строки, а потом пришли php-шники, и вообще нивелировали \0.

Если автор JSON-стандарта забыл записать примитившейшую возможность экранировать нулевой символ «\0»: ведь экранируют-то двойные кавычки. Таким же образом можно экранировать и нулевой символ «blabla\„bla\0bla“. Но нет, видимо, автор на С не писал, поэтому это прошло мимо его внимания.

s/\\0/\0/ можно запилить уже вне json-парсера, кстати, но *зачем*, если это идеально встраивается в концепцию грамматики парсера, ничего не нарушая, и лишь добавляя строгости и четкости в определениях?

bk_ ★★
(22.07.12 23:33:59 MSK) автор топика

Ответ на: комментарий от note173 22.07.12 23:29:18 MSK

Здесь через раз появляется комментарий КО, который не может предугадать самый очевидный ответ.

Если я вставлю в конец строки \0\0, что соответствует концу строки для wchar_t? Будет то же самое.

bk_ ★★
(22.07.12 23:36:24 MSK) автор топика

Ответ на: комментарий от bk_ 22.07.12 23:22:19 MSK

А почему к этому вопросу подходить с этой стороны? Может запретим вообще все терминирующие символы со всех систем, оставим половину байта только для передачи? Этот символ стал означать конец строки только начиная с Си и только в языках с нуль-терминированными строками, в программах написанных на других языках он не зарезервирован, и бывает использовался.
П.С.
Я не знаю зачем его используют в середине, но «%00hello» если сделать urldecode превратится в «\0hello», что может кстати неприятно удивить того, кто разрабатывал сайт на си.

Tark ★★
(22.07.12 23:44:44 MSK)

Ответ на: комментарий от bk_ 22.07.12 23:33:59 MSK

У \0 *всегда* была только одна роль - символ в конце строки.

Да, при этом он (\0) оставался внутри программы. Если твоя программа гадит этим нулевым символом за своими пределами, то это проблема твоей программы, а не стандарта, парсера, расположения планет и тому подобного.

tiandrey ★★★★★
(22.07.12 23:44:55 MSK)

Ответ на: комментарий от note173 22.07.12 23:29:18 MSK

В utf-16 легко можно встретить нулевые байты в любом месте.

нет, не в любом месте. Только там, где они ожидаемы и допустимы.

Slavaz ★★★★★
(22.07.12 23:48:53 MSK)

Ссылка

Ответ на: комментарий от bk_ 22.07.12 23:36:24 MSK

Если я вставлю в конец строки \0\0, что соответствует концу строки для wchar_t? Будет то же самое.

Это будет невалидными входными данными (или не будет, если такое разрешено в юникоде). Но, в любом случае, представление строки в памяти и сама строка — разные вещи. Zero-terminated строки — костыль, который был оправдан во времена C.

(Нет, валидными такие данные в любом случае не будут. Кому нужен токен \0?)

note173 ★★★★★
(22.07.12 23:51:03 MSK)
Последнее исправление: note173 22.07.12 23:52:46 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от bk_ 22.07.12 23:33:59 MSK

У \0 *всегда* была только одна роль - символ в конце строки. Потом пришли Вирты и придумали pascal-style строки

Тащемта сначала пришли Вирты и придумали pascal-style строки, а потом уже пришел Си.

Tark ★★
(22.07.12 23:54:08 MSK)

Ссылка

Ответ на: комментарий от bk_ 22.07.12 23:33:59 MSK

У \0 *всегда* была только одна роль - символ в конце строки.

В корне неверное суждение. Нулевой символ, прерывающий строку - это наипервейший костыль, тянущийся со времён, когда «640 килобайт должно хватить всем» и когда экономили на каждом битике и байтике в ущерб удобности. По моему мнению, современном мире строка должна описываться структурой:
struct String {
codepage_t encoding;
size_t len;
void *data;
}

Потом пришли Вирты и придумали pascal-style строки, а потом пришли php-шники, и вообще нивелировали \0.

и, что удивительно, «всё правильно сделали». Строка должна иметь длину, а не «признак конца строки».

Slavaz ★★★★★
(22.07.12 23:56:16 MSK)

Ответ на: комментарий от Tark 22.07.12 23:44:44 MSK

Пусть это удивляет того, кто такую строку передает через веб-интерфейс.

bk_ ★★
(23.07.12 00:10:23 MSK) автор топика

Ответ на: комментарий от bk_ 22.07.12 23:33:59 MSK

Если автор JSON-стандарта забыл записать примитившейшую возможность экранировать нулевой символ «\0»: ведь экранируют-то двойные кавычки. Таким же образом можно экранировать и нулевой символ «blabla\„bla\0bla“. Но нет, видимо, автор на С не писал, поэтому это прошло мимо его внимания.

бред. символа \0 не должно быть в обрабатываемой строке, если ты его используешь для отделения сообщений одно от другого, то будь любезен написать парсер, который будет сам разбивать json сообщения. Т.к. это только твоя затея, только ты виноват и только тебе разгребать, тот говнокод (не-говно протокол), который ты используешь.

P.S. в принципе вполне могла бы иметь место функция try_json_decode(); которая бы распарсивала тот json, что может и дропала (возвращала) необработанное. Но это не пробелема стандарта.

qnikst ★★★★★
(23.07.12 00:10:32 MSK)

Ответ на: комментарий от bk_ 23.07.12 00:10:23 MSK

А что, сайт используют только через веб-интерфейс? Просто это одна из распространенных дыр, и не один сайт через нее поломали.

Tark ★★
(23.07.12 00:13:23 MSK)

Ссылка

Ответ на: комментарий от Slavaz 22.07.12 23:56:16 MSK

В ущерб удобности, говоришь? Миллионы разработчиков на С работают, и им удобно, а у остальных сверлит в одном месте от этого.

А потом кто-то прибегает, пишет стандарт, http://www.ietf.org/rfc/rfc4627.txt, в котором говорит:

JavaScript Object Notation (JSON) is a lightweight, text-based, language-independent data interchange format.

language-independent

, но не рассматривает наличие \0 в строке и в грамматике. И после этого все хором, перекрикивая друг дружку кричат, что это правильно, и что \0 - это костыль и пережит 640-килобайтных времен.

bk_ ★★
(23.07.12 00:13:54 MSK) автор топика

Ответ на: комментарий от qnikst 23.07.12 00:10:32 MSK

Как раз таки это проблема стандарта, а ты этого в упор не видишь.

Я люблю тебя, PHP! (комментарий)

bk_ ★★
(23.07.12 00:15:07 MSK) автор топика

Ответ на: комментарий от bk_ 23.07.12 00:13:54 MSK

Так \0 нужен в строке, а не между объектами?

note173 ★★★★★
(23.07.12 00:16:21 MSK)

Ответ на: комментарий от bk_ 22.07.12 22:54:09 MSK

Я даже не знаю что на это ответить. А в стандарте должно быть предусмотрено появление МПХ после } ? А почему ?

vasily_pupkin ★★★★★
(23.07.12 00:17:57 MSK)

Ответ на: комментарий от tiandrey 22.07.12 23:44:55 MSK

Уже пятый аналитик говорит, что \0 в строке в протоколе - это плохо и то, что мой парсер - гавно. Вопрос: почему? Дяди не осилили null-terminated строки и усердно пытаются доказать обратное?

bk_ ★★
(23.07.12 00:18:18 MSK) автор топика

Ответ на: комментарий от bk_ 23.07.12 00:13:54 MSK

\0 достаточно плохо совместим с С-быдлокодерами и приводит к печальным последствиям связанным с безопасностью

vasily_pupkin ★★★★★
(23.07.12 00:19:01 MSK)

Ссылка

Ответ на: комментарий от bk_ 23.07.12 00:18:18 MSK

Так у тебя наоборот нет \0. Твой быдлокод его игнорирует. И тот быдлокод на перле тоже.

vasily_pupkin ★★★★★
(23.07.12 00:19:59 MSK)

Ответ на: комментарий от note173 23.07.12 00:16:21 MSK

Моя точка зрения в том, что:

* во-первых, нужна возможность в самой строке экранировать нулевой символ по аналогии с тем, как экранируются двойные кавычки; но это не связано с проблемой в первом посте - это продолжение следующего утверждения:

* во-вторых, \0 должен останавливать парсер. Именно останавливать, а не делать die() с ошибкой. То есть, \0 есть аналог PHP_EOF.

Именно эти два нюанса я не встретил в http://www.ietf.org/rfc/rfc4627.txt, о чем и хочу спросить у его разработчика.

bk_ ★★
(23.07.12 00:21:10 MSK) автор топика

Ответ на: комментарий от bk_ 23.07.12 00:21:10 MSK

Какой die? О чем ты? ))

vasily_pupkin ★★★★★
(23.07.12 00:23:11 MSK)

Ответ на: комментарий от vasily_pupkin 23.07.12 00:19:59 MSK

Прочти еще раз суть моего вопроса. У меня как раз таки есть \0. И php мою быдлостроку с \0 на конце пропарсить не может. Приходится trim-ом этот символ удалять.

Конечно, мой быдлокод наверняка не сравнится с твоим по любому критерию.

bk_ ★★
(23.07.12 00:23:50 MSK) автор топика

Ответ на: комментарий от Breton 22.07.12 20:01:58 MSK

Абсолютный оффтоп: если не секрет, почему у тебя такой ник?

beresk_let ★★★★★
(23.07.12 00:24:25 MSK)

Ссылка

Ответ на: комментарий от vasily_pupkin 23.07.12 00:17:57 MSK

Потому что это стандарт, а не твоя писулька на лоре, которую каждый местный аналитик может интерпретировать как ему угодно.

bk_ ★★
(23.07.12 00:25:13 MSK) автор топика

Ссылка

Ответ на: комментарий от vasily_pupkin 23.07.12 00:23:11 MSK

Такой толстый смайликовый тролль, что аж уныло. die() - это условно-названная функция фатальной ошибки парсера.

bk_ ★★
(23.07.12 00:26:20 MSK) автор топика

Ссылка

Ответ на: комментарий от bk_ 23.07.12 00:13:54 MSK

Миллионы разработчиков на С работают, и им удобно, а у остальных сверлит в одном месте от этого.

не скажу за всех, но лично мне это сильно неудобно. Чудовищно неудобно. Я вынужден работать в рамках доктрины «у строки есть символ конца строки: \0». И изменить эту доктрину я не в силах :( Она «вшита» в C-компиляторы. С удовольствием работал бы строками, которые «знали» бы свою кодировку и длину вне зависимости от контента.

, но не рассматривает наличие \0 в строке и в грамматике.

Да, и это правильно. '\0' - это Си-специфичное правило. Зачем его тянуть в остальные языки, в которых давно отказались от этого условия конца строки? В конце концов, на Си свет клином не сошёлся.

И после этого все хором, перекрикивая друг дружку кричат, что это правильно, и что \0 - это костыль и пережит 640-килобайтных времен.

Да. Разве они не правы? По крайней мере, я отношусь к их стану и был бы рад услышать аргументированные ответы, почему такие «крикуны» не правы.

Slavaz ★★★★★
(23.07.12 00:29:53 MSK)

Ответ на: комментарий от bk_ 23.07.12 00:23:50 MSK

Прочти еще раз грамматику. json текст не оканчивается на \0. Прочти еще раз сообщения об ошибках вменяемых парсеров. Прочти еще раз php — Unexpected control character found. Он может её пропарсить и сообщает что там инвалидное говно.

Почему разработчики грамматики не сделали \0? А зачем он там? Чем он отличается от любого другого говна? Почему в том же C \0 не валиден? Можешь тоже у разработчиков спросить ))

vasily_pupkin ★★★★★
(23.07.12 00:30:55 MSK)

Ссылка

Ответ на: комментарий от bk_ 23.07.12 00:21:10 MSK

Нулевой символ можно и как \u0000.

А остановка парсера при первом \0 — странная идея. Опять же, в строках может встретиться нулевой байт в utf-16. В utf-8 \0 вообще быть не может, в utf-16 \0 как отдельный символ не существует, соответственно появление его на конце строки делает весь текст невалидным. Как предлагаешь решить эту проблему?

note173 ★★★★★
(23.07.12 00:30:55 MSK)

Ответ на: комментарий от bk_ 23.07.12 00:15:07 MSK

нет это не проблема стандарта, это проблема твоей дурной башки. В стандарту не важно какой тип строк будет использовать программист, хоть null-terminated, хоть length-prefixed, хоть linked-list над чарами. И стандарт не должен заботиться о том, что чья-то дурья башка не приемлет ничего кроме null-terminated. А ты если бы не был дурнем, должен был бы из С-строки «выкусывать» данные и использовать их у себя.

qnikst ★★★★★
(23.07.12 00:35:46 MSK)

Ответ на: комментарий от qnikst 23.07.12 00:35:46 MSK

корректировка: получаешь в php С-строку => переводишь ещё в native строку => парсишь.

Почему ты считаешь, что строка S в С это тоже самое, что строка S+null в php мне совершенно не понятно.

qnikst ★★★★★
(23.07.12 00:41:58 MSK)

Ответ на: комментарий от bk_ 23.07.12 00:13:54 MSK

миллионы разрабочтиков использют pascal строки, миллионы разрабочтиков используют java-строки, миллионы разрабочтиков используют StringBuilder(Buffer) и C# аналоги, миллионы разрабочтиков используют php строки, много разработчиков используют String в haskell, там же ByteString/Text. И все они могут хотеть использовать сериализацию в JSON, и стандарт общий для всех, он позволяет всем им пользоваться библиотеками для их строк и передавать сериализованные данные и десерелиализовать в другом языке. Но нет! тут приходит принц на белом коне bk_ и он спасёт их всех, он научит их счастью, и все будут ходить строем и использовать null terminated C strings, и всё равно, что эти json данные могут быть частью другой строки, и пофиг, что они будут в середине текстового файла! МЫ используем только null-terminated strings, всегда и везде мы!

qnikst ★★★★★
(23.07.12 00:48:09 MSK)

Ну не пользуйся php, делов то. Искренне не понимаю людей, выбирающих этот legacy-язык для написания нового кода.

PolarFox ★★★★★
(23.07.12 00:50:35 MSK)

Ответ на: комментарий от Slavaz 23.07.12 00:29:53 MSK

По крайней мере, я отношусь к их стану и был бы рад услышать аргументированные ответы, почему такие «крикуны» не правы.

Я уже несколько раз повторял это выше, но скажу еще раз.

Открываем http://www.ietf.org/rfc/rfc4627.txt

JavaScript Object Notation (JSON) is a lightweight, text-based, language-independent data interchange format.

language-independent

Есть два вариант, что имел ввиду автор: language как ЯП или как человеческий язык.

Если ЯП, то это мой ответ на твое утверждение

Да, и это правильно. '\0' - это Си-специфичное правило. Зачем его тянуть в остальные языки, в которых давно отказались от этого условия конца строки? В конце концов, на Си свет клином не сошёлся.

Далее. Так как это *стандарт*, а стандарт должен *по максимуму* описывать все возможные ситуации, по минимуму оставляя на домысел «имплементорам» стандарта.

Мое мнение таково, что если я пишу стандарт, то я стараюсь покрыть все возможные случаи. Это как разработка архитектуры приложения. А отсутствие указаний в стандарте, что делать, когда встречается нулевой символ - меня лично удивляет, поскольку для языка С это *стандартный* универсальный формат строки.

Далее небольшой домысел, но для большего взаимопонимания напишу: если бы я писал стандарт, то я бы автоматически расписал правило поведения при встрече \0 - это на уровне интуиции. Отсюда вопрос: почему автор стандарта json не проработал это правило?

Ведь *самое очевидное и грамотное решение* - сделать \0 аналогом EOF. Но нет: EOF оно принимает как должное, а \0 - как ошибочный символ.

А по поводу удобства использования \0-терминированных строк: лично мне очень удобно, так как указатель на строку - это сама строка, и больше ничего! Все остальное:

* локаль берется из LC_ALL

* длина берется из strlen

В твоем случае на любую строку идет расход как минимум 2 байта на локаль + 4, а то и 8 байт на длину. Итак, пустая строка жрет 6-10 байт.

Да, на каком-нибудь высокоуровневом ЯП, который живет в одном потоке и убивается со временем, типа php - такие жертвы простительны.

Но в низкоуровневых ЯП это - херня. На то они и низкоуровневые. Ведь там ты можешь сделать для своего приложения такой формат строки и использовать его, пожалуйста! Но представь, сколько геморроя прибудет тебе, если ты захочешь сделать это стандартом во всей С среде.

Подводя итог, твоя абстракция хороша для относительно небольшого количества строк (или на блейд-серверах со 128 ГБ ОЗУ). Представим, что вся Linux-среда, в том числе ядро, оперируют строками в виде твоей структуры. Тогда как ты сделаешь аналог NSMutableString из Cocoa или struct strbuf из git? Нужен параметр capacity.

Твоя абстракция протекает, когда мне нужна строковый буфер, а не строка в чистом виде. А строка в чистом виде без примесей и есть null-terminated строка. А строковый буфер уже будет хранить, например, длину и емкость.

Потом, человеку куда проще читать предложения, зная что в конце стоит точка, а имея в начале предложения число, обозначающее количество слов в предложении. Если ты заговорил об интуитивной понятности, то знание наперед, сколько символов предстоит читать - нужно компьютеру, а не человеку.

Коротко говоря, твоя абстракция хороша в одном примере и плоха в другом. А null-terminated строки - универсальны и интуитивно понятны, в этом их прелесть.

bk_ ★★
(23.07.12 00:50:50 MSK) автор топика

Ответ на: комментарий от note173 23.07.12 00:30:55 MSK

А остановка парсера при первом \0 — странная идея. Опять же, в строках может встретиться нулевой байт в utf-16

парсер работает с символами, а не байтами

~~wota~~ ★★
(23.07.12 00:51:30 MSK)

Ссылка

Ответ на: комментарий от PolarFox 23.07.12 00:50:35 MSK

Я бы это гогно не выбрал, если бы он не использовался там, где надо деплоить приложение.

bk_ ★★
(23.07.12 00:51:30 MSK) автор топика

Ссылка

А вот обработка ошибок в PHP действительно дерьмо. Почему оно не выдало ексепшен или каким-либо иным образом не заявило об ошибке парсинга, молча выдав NULL? В конце концов это наверняка корректный вариант парсинга, к примеру, пустого json.

PolarFox ★★★★★
(23.07.12 00:52:16 MSK)

Похожие темы