почему строки в C такие, какие есть?

Ответ на: комментарий от i-rinat 05.02.17 02:08:09 MSK

Они в x86 и сейчас есть, в SSE4.2.

repnz же.

hateyoufeel ★★★★★
(05.02.17 15:34:06 MSK)

Ответ на: комментарий от hateyoufeel 05.02.17 15:34:06 MSK

repnz

Проверяет ZF, не само значение байта.

i-rinat ★★★★★
(05.02.17 15:37:26 MSK)

Ответ на: комментарий от stevejobs 05.02.17 13:27:28 MSK

Ага, вот в чем дело. Виноват PDP-7, который имел встроенный строковый тип с нулем на конце.

И вот в 2017 году до сих пор тянется наследие архитектурных особенностей PDP-7

cvs-255 ★★★★★
(05.02.17 16:05:38 MSK) автор топика

Ответ на: комментарий от cvs-255 05.02.17 16:05:38 MSK

Ага, вот в чем дело.

Ты ещё скажи, что перед тем, как тему создать, не погуглил.

до сих пор тянется наследие

http://www.astrodigital.org/space/stshorse.html

i-rinat ★★★★★
(05.02.17 16:13:55 MSK)

Ссылка

Ответ на: комментарий от cvs-255 05.02.17 02:51:26 MSK

экономия 3 байт

Если строки выделяются через какой-нить malloc то там ещё будет вагон и маленькая тележка накладных расходов. Странно что никто об этом не вспомнил :)

true_admin ★★★★★
(05.02.17 18:14:46 MSK)

Ответ на: комментарий от stevejobs 05.02.17 13:24:58 MSK

Это да. С другой стороны текст храниться может долго, а буфер - временный, по этому в общем зачёте может быть профит. Если всё написано правильно (не хилое такое допущение, как показала практика).

atrus ★★★★★
(05.02.17 18:25:19 MSK)

Ссылка

Ответ на: комментарий от cvs-255 05.02.17 01:28:00 MSK

А может в дальнейшем еще одну склейку делать? Что, по-новой длину считать?

Если у программиста в голове нет плана выполнения программы и он не знает что хранить, а что нет - да.

Мне кажется, или если строки склеиваются более одного раза, то выигрыш второго метода налицо?

Да много чего на лицо. Есть статья, раскрывающая некоторые подробности (The Most Expensive One-byte Mistake). Это же на PDP-11 было. 128K на первых моделях и многозадачное использование. Тут реально экономили и каждый байт и такт.

Кроме того изначально программы писали на ассемблере, а тут из-за лени и желания оптимизировать уже использовали нуль-терминированные строки. Строковых инструкций ещё не было, но обычно циклы пускают задом наперёд, потому что у процессора есть какая-нибудь инструкция, типа «перейди если в регистре ноль». И если регистр используется в качестве буфера под очередной символ, то...

atrus ★★★★★
(05.02.17 18:45:42 MSK)

Ссылка

Ответ на: комментарий от true_admin 05.02.17 18:14:46 MSK

Если строки выделяются через какой-нить malloc то там ещё будет вагон и маленькая тележка накладных расходов. Странно что никто об этом не вспомнил :)

Потому что этого не было. Вот исходник malloc PDP-11. Как видите, никакого выравнивания, просто выбирается первый подходящий по размеру свободный блок.

atrus ★★★★★
(05.02.17 18:47:29 MSK)

Ответ на: комментарий от i-rinat 05.02.17 15:37:26 MSK

Проверяет ZF, не само значение байта.

Да, но это работает во многих случаях. Побайтовый memcpy, например.

hateyoufeel ★★★★★
(05.02.17 19:05:23 MSK)

Ссылка

Ответ на: комментарий от atrus 05.02.17 18:47:29 MSK

Я не про выравнивание. malloc должен где-то хранить информацию о том что какой-то блок уже занят (struct map). Это тоже требует памяти.

true_admin ★★★★★
(05.02.17 19:59:36 MSK)

Ответ на: комментарий от true_admin 05.02.17 19:59:36 MSK

По этому в старых менеджерах памяти (хотя может и в современных, не проверял) хранился не список выделенных, а список свободных блоков. В теории это позволяет использовать 100% памяти. :)
Не говоря уже о том, что так проще искать память под запрошенный блок.

atrus ★★★★★
(05.02.17 20:09:21 MSK)
Последнее исправление: atrus 05.02.17 20:12:42 MSK (всего исправлений: 2)

Ссылка

Допустим, у нас есть словарь. Каждому слову соответствует 1 строка. Положим, средняя длина слова — 6 букв. Хранение длины слова в 4-байтной переменной увеличит размер необходимой для хранения строк памяти на 66%.

В тоже время, С используется не только на x86 архитектурах. Он рассчитан на использования в микроконтроллерах, например. А там, память важнее производительности.

next_time ★★★★★
(05.02.17 22:33:49 MSK)

Ответ на: комментарий от next_time 05.02.17 22:33:49 MSK

С другой стороны, наиболее часто используемая операция со строками — это не склейка строк, а чтение. Таким образом, и с точки зрения производительности С-строки достаточно эффективны.

next_time ★★★★★
(05.02.17 22:38:59 MSK)

Ответ на: комментарий от cvs-255 05.02.17 02:43:01 MSK

Не только. Ещё и бешеная экономия производительности. Например, на 8-битных архитектурах хранение длины строки в виде 32-битного или даже 16-битного числа сделает простое сравнение строк чрезмерно дорогостоящей операцией.

Не забывайте, что С кроссплатформенный настолько, насколько только может быть кроссплатформенным ЯП.

next_time ★★★★★
(05.02.17 22:45:18 MSK)

Ответ на: комментарий от PHPFan 05.02.17 07:57:01 MSK

Приведи хоть один случай, гдеиспользование дополнительно длины строки приводит к тормозам

cvs-255 ★★★★★
(05.02.17 22:59:47 MSK) автор топика

Ссылка

Ответ на: комментарий от next_time 05.02.17 22:33:49 MSK

В случае словаря, равно как и баз данных, оправдано вообще строка фиксированной длины. И притом длины, кратной 4 байтам (или как выровнена память на целевой архитектуре). Т.е. осмысленно было бы хранить слова в массивах по 64, например, байт. Это неэффективно по памяти, и накладывает ограничение по длине слова, но эффективно по скорости.

cvs-255 ★★★★★
(05.02.17 23:05:54 MSK) автор топика

Ответ на: комментарий от next_time 05.02.17 22:45:18 MSK

сделает простое сравнение строк чрезмерно дорогостоящей операцией.

Вместо одного сравнения аж два или три? А если окажется что строки одинаковой длины то ваще вешаться, да? :)

true_admin ★★★★★
(05.02.17 23:13:14 MSK)

Ответ на: комментарий от cvs-255 05.02.17 23:05:54 MSK

В случае словаря, оправдано вообще строка фиксированной длины

это какой, например?

next_time ★★★★★
(05.02.17 23:13:47 MSK)

Ответ на: комментарий от true_admin 05.02.17 23:13:14 MSK

Именно, если строки одинаковой длины — натурально вешаться, особенно, если строки достаточно длинные: 5-6 байт уже жирновато будет. Для 8-битного процессора и при частых операциях, разумеется.

next_time ★★★★★
(05.02.17 23:18:12 MSK)

Ах да, ещё проблема: если хранить длину строки в самой строке, то строки станут несовместимы друг с другом.

Поясню: в С89 нет способа создать, например, 4-байтную целочисленную переменную без undefined behavior. int, согласно стандарту — это вовсе не «4 байта» — это «неизвестно сколько байт, но не менее 1 char». Например, я видел платформы, где int — это 8 байт и где int — 2 байта. Даже размер char в битах и то не определён.

Т.о., С-строки, хранящие длину строки в самой строке и созданные на разных компьютерах, будут несовместимы между собой, даже, если они были созданы утилитой с одним исходным кодом на языке С.

next_time ★★★★★
(05.02.17 23:34:05 MSK)

Ответ на: комментарий от redgremlin 05.02.17 09:10:15 MSK

Я писал и довольно много, ограничение не сильно мешало.

а как было с открытием файлов, длина пути к которым была более 255 байт?

next_time ★★★★★
(05.02.17 23:36:48 MSK)

Ответ на: комментарий от next_time 05.02.17 23:36:48 MSK

а как было с открытием файлов, длина пути к которым была более 255 байт?

А никак. В DOS и ранних вендах максимальная длина пути (с именем файла и диском) была 260 байт. Сейчас расширили до ~ 32k байт. Или символов. Не помню.

Кстати, аналогичные ограничения есть и в *nix. В Linix максимальный путь к текущему каталогу - 4096 байт + 255 байт длина имени файла. В macOS - 1024 байт.

atrus ★★★★★
(06.02.17 00:40:47 MSK)

Ссылка

Ответ на: комментарий от next_time 05.02.17 23:18:12 MSK

Ну, с другой стороны, сейчас нет проблем с 32-битными микроконтроллерами, так что вешаться не обязательно.

true_admin ★★★★★
(06.02.17 00:43:12 MSK)

Ответ на: комментарий от next_time 05.02.17 22:38:59 MSK

наиболее часто используемая операция со строками — это не склейка строк, а чтение

Возьмем такую простую операцию чтения из строки, как чтение числа из строки, при том, что мы имеем указатель на начало числа в строке и указатель на конец числа (парсим файл). Как это предполагается делать? Портить исходную строку нельзя.

cvs-255 ★★★★★
(06.02.17 01:05:10 MSK) автор топика
Последнее исправление: cvs-255 06.02.17 01:08:14 MSK (всего исправлений: 3)

Ответ на: комментарий от next_time 05.02.17 22:45:18 MSK

Например, на 8-битных архитектурах

Фанат AVR?

cvs-255 ★★★★★
(06.02.17 01:08:40 MSK) автор топика

Ответ на: комментарий от next_time 05.02.17 23:13:47 MSK

64 байта на строку, например. Или 128, чтобы уж точно хватило.

cvs-255 ★★★★★
(06.02.17 01:09:30 MSK) автор топика

Ответ на: комментарий от next_time 05.02.17 22:45:18 MSK

сделает простое сравнение строк чрезмерно дорогостоящей операцией.

А вот и нифига! Потому что если строки разной длины, то сравнив 4 байта, можно сразу сказать, что это разные строки, а не идти до самого конца.

cvs-255 ★★★★★
(06.02.17 01:11:15 MSK) автор топика

Ответ на: комментарий от next_time 05.02.17 23:34:05 MSK

То, что в C нет встроенного uint16_t, uint32_t, etc, это еще один косяк, которого я не понимаю.

cvs-255 ★★★★★
(06.02.17 01:13:00 MSK) автор топика

Чем мотивировано задание строки с помощью завершающего нуля?

Чтобы помешать тебе хранить в строках информацию с произвольным содержимым. Сишники должны страдать, а их программы падать, только так вырабатывается дух настоящего ~~самурая~~ соСИсочника.

~~Napilnik~~ ★★★★★
(06.02.17 05:34:10 MSK)

Ссылка

Ответ на: комментарий от next_time 05.02.17 23:36:48 MSK

а как было с открытием файлов, длина пути к которым была более 255 байт?

find / -type f -print | wc -L
201

Каких, говоришь, файлов?

~~redgremlin~~ ★★★★★
(06.02.17 06:54:53 MSK)

Ответ на: комментарий от cvs-255 06.02.17 01:05:10 MSK

мы имеем указатель на начало числа в строке и указатель на конец числа (парсим файл). Как это предполагается делать?

for (p = start; p < end; p++)
  n = 10*n + (char)(*p) - '0';

~~redgremlin~~ ★★★★★
(06.02.17 07:07:21 MSK)

Ответ на: комментарий от n_play 05.02.17 01:12:13 MSK

Тогда даже символы экономили, не то что такты (% отсюда и лаконичность синтаксиса C.

aiqu6Ait ★★★★
(06.02.17 07:38:16 MSK)

Ссылка

Ответ на: комментарий от i-rinat 05.02.17 02:08:09 MSK

До меня начинает доходить, почему x86 - как винтовой цоколь лампочки... Это не легаси, это антропология.

Shadow ★★★★★
(06.02.17 07:46:45 MSK)

Ответ на: комментарий от cvs-255 06.02.17 01:09:30 MSK

То есть, в среднем, мы получим оверхед по памяти более 10,5 раз. Чудный план.

next_time ★★★★★
(06.02.17 07:53:35 MSK)

Ответ на: комментарий от cvs-255 06.02.17 01:05:10 MSK

в смысле? перевести строковое представление числа в int? int-а может не хватить, а если хватит, делается тривиально.

next_time ★★★★★
(06.02.17 07:54:55 MSK)

Ссылка

Ответ на: комментарий от cvs-255 06.02.17 01:08:40 MSK

8051

next_time ★★★★★
(06.02.17 07:56:02 MSK)

Ссылка

Ответ на: комментарий от cvs-255 06.02.17 01:11:15 MSK

хотя да

next_time ★★★★★
(06.02.17 07:57:59 MSK)

Ссылка

Ответ на: комментарий от cvs-255 06.02.17 01:13:00 MSK

Не успели продумать, как следует, а потом уже поздно было. Потдверждается тем, что в новых стендартах С/С++ уже всё есть.

Скорее всего, логика была, что если char — это минимально рабочая единица, то сложно добиваться поддержки компилятором uint8_t на тех машинах, где char — 16 бит, к примеру. Ну и с остальными типами по аналогии.

next_time ★★★★★
(06.02.17 08:02:42 MSK)

Ссылка

Ответ на: комментарий от true_admin 06.02.17 00:43:12 MSK

true_admin> Ну, с другой стороны, сейчас нет проблем с 32-битными микроконтроллерами, так что вешаться не обязательно.

Зато до сих пор 8-битные в ходу. И ещё долго будут.

~~Quasar~~ ★★★★★
(06.02.17 10:56:06 MSK)

Ссылка

Ответ на: комментарий от cvs-255 06.02.17 01:08:40 MSK

cvs-255> Фанат AVR?

Ну почему сразу AVR? Ещё как минимум 8051 есть. Используется дофига где. А ещё есть малораспространённые специализированные 8-битные микроконтроллеры. Чаще всего в клавиатурах и мышках найти можно.

~~Quasar~~ ★★★★★
(06.02.17 10:58:40 MSK)

Ссылка

Ответ на: комментарий от cvs-255 06.02.17 01:05:10 MSK

мы имеем указатель на начало числа в строке и указатель на конец числа (парсим файл).

Linux устроен так, что ты можешь обратиться по указателю на начало блока памяти и поместить оттуда некоторое количество слов в буфер. Зачем тебе указатель на конец числа? Тогда как использование размера числа правильнее и экономнее (как по памяти, так и по инструкциям).

iVS ★★★★★
(06.02.17 11:16:24 MSK)

Ответ на: комментарий от redgremlin 06.02.17 07:07:21 MSK

Вместо того, чтобы один раз скачать число в буфер, ты считываешь из памяти по байту? Для производительности, хуже и придумать нельзя...

iVS ★★★★★
(06.02.17 11:20:50 MSK)

c нулем сравнивать удобно.

в pdp11 была инструкция TST которая ставила флажок.

i36_zubov ☆
(06.02.17 11:33:55 MSK)

Ссылка

Ответ на: комментарий от Shadow 06.02.17 07:46:45 MSK

нет. это тупо требование обратной совместимости. плюс в те времена на чип тупо не помещалось дофига транзисторов.

i36_zubov ☆
(06.02.17 11:35:11 MSK)

Ссылка

Ответ на: комментарий от Shadow 06.02.17 07:46:45 MSK

Это значит, что основные операции с ноль-завершаемыми строками, такие как strcpy(), записываются в одну ассемблерную команду.

Deleted
(06.02.17 11:39:10 MSK)

Ответ на: комментарий от Deleted 06.02.17 11:39:10 MSK

Так я о чем.

Shadow ★★★★★
(06.02.17 11:47:08 MSK)

Ссылка

Потому что в C нет типа «строка». Поэтому и пользуются массивами/указателями на char/wchar_t .

Почему в стандартной библиотеке нет человеческой обёртки для строк - это вопрос из серии: «почему в стандарт C до сих не добавили feature_name?».

omnomnomnus ★
(06.02.17 11:52:42 MSK)

Ссылка

Ответ на: комментарий от iVS 06.02.17 11:20:50 MSK

Что я только что прочитал?

~~redgremlin~~ ★★★★★
(06.02.17 11:56:09 MSK)

Ссылка

Ответ на: комментарий от cvs-255 05.02.17 01:13:32 MSK

В большинстве случаев - нет, не нужно. Если очень хочется, то можно оборачивать строку в структуру, в которой приведёшь длину отдельным поле, это провернуть ничего не стоит.

Bfgeshka ★★★★★
(06.02.17 12:03:51 MSK)

Ссылка

Ответ на: комментарий от redgremlin 06.02.17 07:07:21 MSK

самому вполне можно написать. Но городить свои велосипеды для стандартной операции - не естьхорошо

cvs-255 ★★★★★
(06.02.17 14:27:37 MSK) автор топика

Ссылка

Похожие темы