транзакционная запись в файл

1

9

привет!

нужно объединить две операции записи в транзакцию. запись происходит в один и тот же файл, но в разные его участки(заголовок - начало файла, и, собственно, данные - конец файла).

делал ли кто-нить что-нить подобное? возможно ли это сделать в user-space? что почитать по сабжу?

спасибо.

Ссылка

←	Кроссплатформенный OPC UA Сервер

Как посчитать длину MBCS-строки без учёта концевых пробелов (на C)?

→

возможно ли это сделать в user-space?

В общем случае это ни в каком -space сделать нельзя.

Если тебе нужно, чтобы для другого читающего процесса в файле по определённому пути были либо данные до твоей транзакции, либо после твоей транзакции, то это можно сделать так:

Создаём новый файл в той же директории, что и существующий файл, который мы хотим изменить.
Пишем в него все данные (копируем из существующего файла, как вариант).
Изменяем этот новый файл, если нужно.
Перемещаем новый файл на место старого при помощи функции rename(), про которую написано в мане:
If newpath already exists, it will be atomically replaced, so that there is no point at which another process attempting to access newpath will find it missing.

Читающий процесс должен переоткрывать файл перед чтением, иначе он всегда будет видеть старый файл. Способ не быстрый, но проверенный и надёжный.

Если нужно что-то более сложное или быстрое, то лучше возьми готовую СУБД. Да хоть тот же sqlite.

Deleted
(06.12.17 12:39:36 MSK)
Последнее исправление: Deleted 06.12.17 12:40:46 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 06.12.17 12:39:36 MSK

нечто подобное и мне пришло в голову. но, как мне кажется, - сильно оверхедное решение...

я думал, что возможно есть какое-то фс-специфичное АПИ, при помощи которого можно реализовать сабж...

вариант с sqlite тоже обдумывал, но тоже как-то сильно оверхедно..

спасибо, подожду еще вариантов.

niXman ★★★
(06.12.17 13:03:37 MSK) автор топика

Ответ на: комментарий от niXman 06.12.17 13:03:37 MSK

в оффтопике открытый на запись файл блокируется и не читается. Может в онтопике есть флаг это делающий?

mittorn ★★★★★
(06.12.17 13:13:15 MSK)

А если man 2 flock?

UVV ★★★★★
(06.12.17 13:17:25 MSK)

Ответ на: комментарий от Deleted 06.12.17 12:39:36 MSK

В общем случае это ни в каком -space сделать нельзя.

а fuse с одной нитью?

anonymous
(06.12.17 13:19:44 MSK)

делал ли кто-нить что-нить подобное?

Не делал.

возможно ли это сделать в user-space? что почитать по сабжу?

Можно ли установить жесткую буферизацию например?

нужно объединить две операции записи в транзакцию.

А условия для прервания транзакции чисто технические или происходят из бизнес-логики?

KennyMinigun ★★★★★
(06.12.17 13:20:22 MSK)

Ответ на: комментарий от mittorn 06.12.17 13:13:15 MSK

непонял вопроса..

niXman ★★★
(06.12.17 13:23:39 MSK) автор топика

Ссылка

Ответ на: комментарий от UVV 06.12.17 13:17:25 MSK

или я чего-то не понимаю, или поясните как оно поможет?

niXman ★★★
(06.12.17 13:24:08 MSK) автор топика

Ответ на: комментарий от KennyMinigun 06.12.17 13:20:22 MSK

Можно ли установить жесткую буферизацию например?

поясните.

А условия для прервания транзакции чисто технические или происходят из бизнес-логики?

технические. на случай падения программы..

niXman ★★★
(06.12.17 13:25:27 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 06.12.17 13:19:44 MSK

а fuse с одной нитью?

Это уже не «общий случай». И требует наворачивания нестандартного поведения поверх POSIX FS. И я вообще не уверен, что это будет работать...

Deleted
(06.12.17 13:28:44 MSK)

Ссылка

1) copy

2) edit copy

3) move back

MyTrooName ★★★★★
(06.12.17 13:33:05 MSK)

Ответ на: комментарий от niXman 06.12.17 13:03:37 MSK

вариант с sqlite тоже обдумывал, но тоже как-то сильно оверхедно..

если нужны транзакции, sqlite - это самое простое и легковесное, что можно взять; если не хочешь с нуля кусок sqlite написать сам

MyTrooName ★★★★★
(06.12.17 13:34:56 MSK)

Ответ на: комментарий от niXman 06.12.17 13:03:37 MSK

фс-специфичное АПИ

или просто copy-on-write

MyTrooName ★★★★★
(06.12.17 13:35:34 MSK)

Ссылка

Ответ на: комментарий от niXman 06.12.17 13:24:08 MSK

Можно выставить флаг доступа к файлу, но он не обязателен к выполнению. Т.е. это вариант если доступ только из твоих приложений.

four_str_sam ★
(06.12.17 13:43:15 MSK)

Ответ на: комментарий от four_str_sam 06.12.17 13:43:15 MSK

Можно выставить флаг доступа к файлу, но он не обязателен к выполнению. Т.е. это вариант если доступ только из твоих приложений.

А ещё это не поможет в случае креша приложения посередине «транзакции». И при kill -9. И при внезапном пропадании электричества.

Deleted
(06.12.17 13:51:47 MSK)

Ссылка

Ответ на: комментарий от four_str_sam 06.12.17 13:43:15 MSK

забыл указать, что читает и пишет файл один и тот же процесс.

niXman ★★★
(06.12.17 14:22:56 MSK) автор топика

Ответ на: комментарий от niXman 06.12.17 14:22:56 MSK

еще как вариант - заголовок размещать не в начале файла, и перед каждым пакетом, и таким образом я могу объединить заголовок и данные в один буфер и записать одной операцией.

но тут возникает другой вопрос: т.к. файл будет постояно расти, хотелось бы его усекать с головы =)

niXman ★★★
(06.12.17 14:43:50 MSK) автор топика

Ссылка

Ответ на: комментарий от niXman 06.12.17 14:22:56 MSK

А нельзя вместо модификаций делать добавление в хвост, append-only? Теоретически это могло бы упростить контроль за «атомарностью». Сначала дописываем, потом изменяем заголовок. Опционально к «транзакции» можно прикладывать хэш. Будет видно битые и незавершенные транзакции.

В sqlite кстати сделано очень заморочено, вот тут есть неполное описание https://www.sqlite.org/fileio.html

Deleted
(06.12.17 14:44:05 MSK)
Последнее исправление: Deleted 06.12.17 14:44:59 MSK (всего исправлений: 1)

Ссылка

Файл memeory mapped в обоих процессах. В начале файла мутекс. Изменения защищаются мутексом. В этом случае все будет консистентно.

vromanov ★★★
(06.12.17 14:59:31 MSK)

Ссылка

Есть, как водится, два подхода: лог и транзакционный.

1) Пишешь в лог всё что собираешься писать в данные (offset, size, data), затем fsync лога, затем пишешь собственно данные как собирался, затем fsync данных и можно удалять лог (или атомарно* помечать как чистый). При чтении, если встретил лог, накатываешь сначала все записи из него.

2) Дописываешь в данные, но никак не перезатирая живые. Т.е. либо дописываешь в конец файла, либо пишешь в неиспользуемые дырки. Подчёркиваю что так как ты не перезатирал живые данные, никаких ссылок на то что было записано в файле нет, т.е. пока эти данные «невидимы» для читающего кода - это мусор в конце файла или в неиспользуемых дырках. Затем делаешь fsync, затем атомарно* нужно сделать эти данные видимыми.

* Вот с атомарностью есть такой нюанс что гарантий атомарности записи > 1 байта в общем случае нет, поэтому ты должен делать это записью одного байта. С логом всё просто, а с транзакционный подход будет диктовать особую структуру файла:

[1 байт] флаг (A либо B)
[8 байт] offset суперблока A
[8 байт] offset суперблока B
         данные 0
         суперблок 0
         данные 1
         суперблок 1
         данные 2
         суперблок 2
         данные 3
         суперблок 3

Суперблок это структура описывающая актуальное состояние хранящихся данных. Может быть организован по-разному в зависимости от ситуации (удаляются ли данные, space/speed tradeoff и т.д.). Т.е. если данные только аппендятся, суперблок 3 может содержать таблицу offset'ов данных 0, 1, 2, 3, а может только offset данных 3 и оффсет предыдущего суперблока. В любом случае, из суперблока 3 ты можешь дойти до всех четырёх кусков данных.

Смещение актуального суперблока хранится либо в A (при этом флаг = A), либо в B (при этом флаг = B).

Запись будет выглядеть так:

Дописать данные 4
Дописать суперблок 4
Изменить offset суперблока во вторичном поле (т.е. B если флаг == A и наоборот)
f(data)sync (сейчас все данные на диске, но всё ещё невидимы)
Поменять флаг с A на B (или наоборот) (это коммит, новые данные видимы)

slovazap ★★★★★
(06.12.17 15:17:55 MSK)

Ссылка

лок на файл можно выставить. если это posix. там есть такая функция, что-то типа flock.

но rollback, очевидно, нужно будет костылить самостоятельно.

~~dzidzitop~~ ★★
(06.12.17 15:59:11 MSK)
Последнее исправление: dzidzitop 06.12.17 16:00:33 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от MyTrooName 06.12.17 13:33:05 MSK

Самый верный вариант. А то понагородили какой-то ерунды в треде.

cnupm ★
(06.12.17 17:23:53 MSK)

Ссылка

Ответ на: комментарий от niXman 06.12.17 14:22:56 MSK

забыл указать, что читает и пишет файл один и тот же процесс.

По-моему мнению лучший вариант - sqlite. Он не только делает транзакции, но еще и следит за тем, чтобы они реально были транзакционными (суть в том, что одного sync не достаточно для сброса данных, нужно еще чтобы файловая система ничего не оптимизировала, кеш фс в ядре, диск..., вот sqlite учитывает многие такие особенности).

Другой вариант - собственный журнал. Пишешь данные в файл журнала (можно использовать простой формат записей, каждая запись из нескольких частей записанных в разные места файла, объединенных в транзакцию)

    size_t checksum;
    size_t record_length;
    size_t subrecord_count;
    size_t subrecord_offset;
    size_t subrecord_size;
    // offset и size по количеству subrecord
    // далее subrecord_data также по количеству subrecord_count

Для журнала можно использовать файл размером больше одной записи (транзакции), или нескольких. Файлу делаешь mmap и при записи транзакции сначала копируешь данные в эту журналируемую mmap'ленную память, затем считаешь контрольную сумму, а затем пишешь данные в обычный файл данных. Журнал используется повторно (с начала), когда очередная запись не влезает в конец журнала. Если произойдет падение приложения mmap'ленные данные журнала будут записаны в файл ядром. При запуске программы сначала накатываешь журнал с транзакциями у которых совпадают контрольные суммы (если не совпадают - значит транзакция и не начиналась). Если тебя беспокоит то, что при выключении питания данные могут потерятся - да могут. Но чтобы не терялись, нужна распределенность, без нее даже батарейка на контроллере не поможет (лишь уменьшит вероятность). Для уменьшения вероятности потери данных можно делать msync части журнала с записанной транзакцией в режиме MS_ASYNC после каждой записи в журнал (или в режиме MS_SYNC, но тогда у тебя скорость записи упадет до максимального количества IOPS, которые потянет твой диск от 200 для SATA, для SSD сильно зависит от модели, но на порядок больше).

anonymous
(06.12.17 21:03:02 MSK)

Ссылка

Ответ на: комментарий от niXman 06.12.17 13:03:37 MSK

Может оказаться, что это сейчас sqlite выглядит оверхедом, а в перспективе наоборот ускорит программу. В sqlite настолько надёжная и заоптимизированная журналируемая запись в файл, что воспроизвести такую же самому не выйдет. Плюс для серии записей данных у sqlite есть транзакции, которые сильно ускорят задачу. Если записи редкие и объёмные, то лучше через запись в фоновый файл и rename

quiet_readonly ★★★★
(06.12.17 21:57:28 MSK)