Правильнее делать «неродной» порядок байт - big endian, если ты на x86. Чтобы все баги с поворотом байтов сразу вылезали.

tailgunner ★★★★★
(14.07.11 13:13:57 MSK)

Ссылка

> Что правильнее?

текстом. не во всех процах 8-битные байты и two's-complement представление отрицательных чисел.

arsi ★★★★★
(14.07.11 13:15:40 MSK)

Little endian т.к. чаще встречается.

Тебе реально это надо кроссплатформенно и ты БУДЕШЬ запускать на других архитектурах или просто захотел понтануться кроссплатформенностью? Потому что если тебе важна скорость CPU то вряд ли ты будешь гонять программу, скажем, на arm.

И есть сомнения что накладные расходы при конвертировании будут действительно большими по сравнению с io. Всё равно всё упрётся в диск.

true_admin ★★★★★
(14.07.11 13:16:06 MSK)

>Что правильнее?

тут есть два мнения :)

registrant ★★★★★
(14.07.11 13:16:23 MSK)

Ссылка

Ответ на: комментарий от arsi 14.07.11 13:15:40 MSK

текстом

датасет большой, это его ешё больше раздует, причём в разы.

true_admin ★★★★★
(14.07.11 13:26:25 MSK)

sqlite

~~aho~~
(14.07.11 13:29:49 MSK)

Ссылка

Ответ на: комментарий от true_admin 14.07.11 13:16:06 MSK

Должна быть возможность запускать это везде, в этом одна из фишек программы, в этом понт )

Насчет расходов, вероятно, верно. Там вообще сложная инициализация. Буду еще профилировать, когда напишу.

unsigned ★★★★
(14.07.11 13:32:33 MSK) автор топика

Ссылка

Ответ на: комментарий от true_admin 14.07.11 13:26:25 MSK

> датасет большой, это его ешё больше раздует, причём в разы.

за кроссплатформенность приходится платить, да.

arsi ★★★★★
(14.07.11 13:33:00 MSK)

Ответ на: комментарий от arsi 14.07.11 13:15:40 MSK

Надо уточнить: это не просто массив чисел, структура сложная, и не только числа.

unsigned ★★★★
(14.07.11 13:33:11 MSK) автор топика

Ответ на: комментарий от arsi 14.07.11 13:15:40 MSK

> не во всех процах 8-битные байты

Не должно помешать, у меня только типы stdint.h

> и two's-complement представление отрицательных чисел

А вот это непонятно, я считал, что это стандартизовано.

unsigned ★★★★
(14.07.11 13:37:40 MSK) автор топика

Ответ на: комментарий от unsigned 14.07.11 13:33:11 MSK

> Надо уточнить: это не просто массив чисел, структура сложная, и не только числа.

тем более. и уточни ещё точнее.

arsi ★★★★★
(14.07.11 13:37:46 MSK)

Ссылка

Ответ на: комментарий от unsigned 14.07.11 13:37:40 MSK

> Не должно помешать, у меня только типы stdint.h

наивный :) и какие же типы ты оттуда используешь?

> А вот это непонятно, я считал, что это стандартизовано.

конечно стандартизировано, как и несколько других представлений ;)

arsi ★★★★★
(14.07.11 13:40:36 MSK)

Ответ на: комментарий от arsi 14.07.11 13:40:36 MSK

>> А вот это непонятно, я считал, что это стандартизовано.

конечно стандартизировано, как и несколько других представлений ;)

А давай конкретнее? Например, озвучь список архитектур, на которых двоичные числа представляются _не_ как two's-complement.

Да, и список архитектур, на которых байт не 8-битовый?

tailgunner ★★★★★
(14.07.11 13:47:50 MSK)

Ответ на: комментарий от tailgunner 14.07.11 13:47:50 MSK

> А давай конкретнее?

чего тебе дать? пойди сам возьми, не инвалид же, чтобы тебя с ложечки кормить.

arsi ★★★★★
(14.07.11 13:50:59 MSK)

Ответ на: комментарий от arsi 14.07.11 13:50:59 MSK

>> А давай конкретнее?

чего тебе дать?

См. выше

пойди сам возьми

Уже сходил. Твои умствования насче байтов не по 8 бит и двоичных чисел не в two's complement - просто надувание щек (при том, что такие архитектуры существуют). Так что будь скромнее.

tailgunner ★★★★★
(14.07.11 13:53:59 MSK)

Ответ на: комментарий от arsi 14.07.11 13:40:36 MSK

> и какие же типы ты оттуда используешь?

Натурально, intX_t, uintX_t. X - 8, 16, 32.

> как и несколько других представлений

Так чего, нет способа бинарно и кроссплатформенно записать целое число?

unsigned ★★★★
(14.07.11 13:56:11 MSK) автор топика

Ответ на: комментарий от unsigned 14.07.11 13:56:11 MSK

> Натурально, intX_t, uintX_t. X - 8, 16, 32.

intX_t — это опциональные, специфичные для архитектуры типы. на одной архитектуре могут быть int12_t, int24_t, int48_t, и т.д., на другой — только int36_t, на третей вообще могут отсутствовать intX_t.

> Так чего, нет способа бинарно и кроссплатформенно записать целое число?

ну придумай какой-нибудь формат или выбери существующий и напиши кроссплатформенные функции загрузки/сохранения.

arsi ★★★★★
(14.07.11 14:06:05 MSK)

сделать в файле одно число фиксированным, писать туда, скажем, 0x12345678, при загрузке читать, если не совпадает с требуемым, перевернуть и снова проверить. Если теперь совпадает - поставить флаг, что все числа нужно переворачивать.

note173 ★★★★★
(14.07.11 14:10:46 MSK)

Ответ на: комментарий от unsigned 14.07.11 13:56:11 MSK

Есть, только долго записывать/считывать:

typedef struct{
  uint8_t b1;
  uint8_t b2;
  uint8_t b3;
  uint8_t b4;
} myuint32_t;

myuint32_t uitomy(uint32_t n){
  myuint32_t number;
  number.b1 = n >> 24 && 0xff;
  number.b2 = n >> 16 && 0xff;
  number.b3 = n >> 8  && 0xff;
  number.b4 = n       && 0xff;
  return number;
}

int32_t mytoui(myuint32_t n){
  int32_t number = n.b1<<24 | n.b2<<16 | n.b3<<8 | n.b4;
  return number;
}

~~Eddy_Em~~ ☆☆☆☆☆
(14.07.11 14:11:49 MSK)

Ответ на: комментарий от note173 14.07.11 14:10:46 MSK

А ля Byte Order Mark в некоторых кодировках.

А вообще «кроссплатформенность» определяется не конкретно форматом (LE vs. BE), а тем что протокол определен так, что обе стороны его способны записать/прочитать независимо от архитектуры.

Вот BSON (binary json, формат, юзаемый MongoDB) использует Little endian, например. Т.к. подавляющее большинство машин именно такие. Что весьма прагматично. Но способствует написанию кода, который непереносим без правок.

ratatosk ★
(14.07.11 14:30:20 MSK)

Ссылка

Сделай как ZFS - пишется все в нативном порядке байт на любой платформе, при чтении порядок байт меняется, если нужно.

mukoh ★
(14.07.11 14:35:48 MSK)

Ссылка

Ответ на: комментарий от tailgunner 14.07.11 13:53:59 MSK

> такие архитектуры существуют

Так в чем претензия, они слишком редкие?

unsigned ★★★★
(14.07.11 14:40:07 MSK) автор топика

Ответ на: комментарий от Eddy_Em 14.07.11 14:11:49 MSK

А endian.h чем не подошел?

unsigned ★★★★
(14.07.11 14:41:01 MSK) автор топика

Ответ на: комментарий от unsigned 14.07.11 14:41:01 MSK

Во-первых, я про него и не знал, во-вторых, там то же самое по сути.

~~Eddy_Em~~ ☆☆☆☆☆
(14.07.11 14:47:04 MSK)

Ссылка

Ответ на: комментарий от unsigned 14.07.11 14:40:07 MSK

>> такие архитектуры существуют

Так в чем претензия

В том, что нужно посмотреть на возможные целевые платформы, и строить программу, исходя из этого, а не исходя из всего теоретически существующего зоопарка (например, ты знаешь, что есть машины с адресуемыми битами? хочешь ли ты их поддерживать?).

они слишком редкие?

За 20 лет работы встретил парочку архитектур с не-8-битовым «байтом»; архитектур с не-two's-complement так сразу и не вспомню (ну, разве что читал о CDC-6600).

tailgunner ★★★★★
(14.07.11 15:02:56 MSK)

protobuf?

anonymous
(14.07.11 15:04:07 MSK)

Ответ на: комментарий от Eddy_Em 14.07.11 14:11:49 MSK

Ненужный велосипед!

> number.b1 = n >> 24 && 0xff;

number.b2 = n >> 16 && 0xff;

number.b3 = n >> 8 && 0xff;

number.b4 = n && 0xff;

Мало того, что маска в этом случае лишняя, так она еще и данные портит :)

...

Если нужна кроссплатформенность, храню данные в сетевом порядке. Для производительности это некритично (как выше уже отмечали, все упрется в IO), а городить костыли вроде хранения в строковом формате геморройно. Если попадется экзотическая платформа, лучше под нее написать (или найти!) конвертер.

staseg ★★★★★
(14.07.11 15:12:23 MSK)

Ответ на: комментарий от unsigned 14.07.11 14:40:07 MSK

>Так в чем претензия, они слишком редкие?

Что-то я не помню, чтобы linux (или windows, или т.д.) поддерживал архитектуры с 7-битными байтами

ttnl ★★★★★
(14.07.11 15:15:34 MSK)

Ссылка

Просто используй BSON.

archimag ★★★
(14.07.11 15:15:48 MSK)

Ссылка

Ответ на: комментарий от arsi 14.07.11 14:06:05 MSK

> это опциональные, специфичные для архитектуры типы

Тогда можно использовать int_leastX_t при чтении файла, а формировать его только на нормальных архитектурах.

С другой стороны, ввод-вывод побайтовый, так что проблемы все равно будут. Проще не думать об этом )

unsigned ★★★★
(14.07.11 15:17:24 MSK) автор топика

Ссылка

Ответ на: комментарий от tailgunner 14.07.11 15:02:56 MSK

ОК, я отказываюсь от рынка невосьмибитных байтов )

unsigned ★★★★
(14.07.11 15:20:47 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 14.07.11 15:04:07 MSK

> protobuf

Тяжеловато, у меня чистый C.

unsigned ★★★★
(14.07.11 15:21:15 MSK) автор топика

Ответ на: комментарий от arsi 14.07.11 13:33:00 MSK

за кроссплатформенность приходится платить

это не кроссплатформенность, это неэффективное хранение данных. Можно хранить в little endian и платить почти не придётся.

true_admin ★★★★★
(14.07.11 15:21:57 MSK)

Ответ на: комментарий от true_admin 14.07.11 15:21:57 MSK

> Можно хранить в little endian и платить почти не придётся.

маководы тебя не поймут ;)

arsi ★★★★★
(14.07.11 15:23:23 MSK)

Ответ на: комментарий от arsi 14.07.11 15:23:23 MSK

PowerPCшные маки ещё не все сломались от старости?

PolarFox ★★★★★
(14.07.11 15:24:51 MSK)

Ответ на: комментарий от arsi 14.07.11 15:23:23 MSK

уже лет 6, наверное, как поймут

~~aho~~
(14.07.11 15:24:52 MSK)

Ссылка

Ответ на: комментарий от PolarFox 14.07.11 15:24:51 MSK

> PowerPCшные маки ещё не все сломались от старости?

э… яббл отказался от ррс _совсем_? о_О почему-то думал, что интел у них как альтернативная платформа…

arsi ★★★★★
(14.07.11 15:29:41 MSK)

Ответ на: Ненужный велосипед! от staseg 14.07.11 15:12:23 MSK

Упс, я там вместо битового «И» логическое «И» нарисовал. А с чего это маска - лишняя? Мало ли...

~~Eddy_Em~~ ☆☆☆☆☆
(14.07.11 15:31:08 MSK)

Ссылка

Ответ на: комментарий от arsi 14.07.11 15:29:41 MSK

> э… яббл отказался от ррс _совсем_? о_О почему-то думал, что интел у них как альтернативная платформа…

Уже второй релиз макоси выходит intel-only, а производить померписишные маки перестали ещё где-то в 2005 или 2006.

PolarFox ★★★★★
(14.07.11 15:46:53 MSK)

Ссылка

кроссплатформенно

Сделай отдельный класс, что-то типа плагина, для (де)сериализации своих целых чисел. На каждой платформе свой плагин.

Если кроссплатформенность - фича, то тогда литл. А вообще не парь мозг. Лучше не делай совсем. Когда реально понадобится - тогда сделаешь.

~~mi_estas~~ ★
(14.07.11 16:12:24 MSK)

Ссылка

imho если приходится хранить/передавать числа в бинарном виде между разными архитектурами, то пусть они будут в сетевом порядке байт.

API конвертации целых чисел для передачи в сеть и обратно:

man 3 endian

man 3 byteorder

p.s. Если у вас там научные/статистические данные, то и хранить их надо в соответственном виде (netcdf и иже с ними). Заодно получая профит в возможности использовать сторонний софт для обсчёта.

MKuznetsov ★★★★★
(14.07.11 16:57:37 MSK)

Ссылка

Правильнее поддерживать оба формата и указывать порядок байт в первом байте файла. Пусть сисадмин сам решит в каком формате будут генерироваться эти файлы и сам установит соответствующий параметр в конфигурации.

~~bbk123~~ ★★★★★
(14.07.11 17:17:00 MSK)

Ответ на: комментарий от arsi 14.07.11 15:23:23 MSK

Кстати, я смотрю в википедии и вижу что армы могут менять endianess на лету.

true_admin ★★★★★
(14.07.11 17:36:15 MSK)

Ответ на: комментарий от true_admin 14.07.11 17:36:15 MSK

хз, зависит от самого чипа, наверное. в атмел (ат91), с которым я сейчас работаю, переключалки порядка байт для памяти я не обнаружил (но есть для DMA, LCD и AC97). а в даташите на армовский проц от TI прямо сказано: «ARM Instructions/Data – Little Endian».

arsi ★★★★★
(14.07.11 18:07:47 MSK)

А ты уверен, что затык в производительности будет именно из-за перекодирования из big-endian? Да, и ничего плохого нет в том, чтобы использовать little-endian. Платформеннонезависимым бывает _способ_ кодирования, а не сама кодировка.

~~dave~~ ★★★★★
(14.07.11 18:27:09 MSK)

Ссылка

Ответ на: комментарий от arsi 14.07.11 18:07:47 MSK

Понятно, спасибо.

true_admin ★★★★★
(14.07.11 18:58:36 MSK)

Ссылка

Ответ на: комментарий от unsigned 14.07.11 15:21:15 MSK

msgpack?

anonymous
(14.07.11 19:34:18 MSK)

Ответ на: комментарий от anonymous 14.07.11 19:34:18 MSK

unsigned ты зачем мой старинный ник украл?

sn1ln
(15.07.11 04:05:08 MSK)

Ответ на: комментарий от sn1ln 15.07.11 04:05:08 MSK

А чего ты его без присмотра оставил?

unsigned ★★★★
(15.07.11 10:54:53 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 14.07.11 19:34:18 MSK

> msgpack

Посмотрю, спасибо. Но на этом проекте это не понадобится.

unsigned ★★★★
(15.07.11 10:55:35 MSK) автор топика

Ссылка

Ненужный велосипед!

Похожие темы