Rust обогнал Сишечку по скорости распаковки

0

5

Привет, ЛОР!

Случилось непредвиденное и невероятное: реализация библиотеки zlib на Rust (zlib-rs) обогнала реализацию на C по скорости распаковки и показывает примерно схожую с последней скорость запаковки данных. Разница в производительности может достигать аж 14%.

Есть ли смысл теперь вообще писать новый софт на Си, если даже в производительности он начинает терять лидерство? Что скажут эксперты по Си и почему zlib на Си так плохо оптимизирован?

Ссылка на бенчмарки: https://trifectatech.org/blog/zlib-rs-is-faster-than-c/

Перемещено dataman из development

Ссылка

←	Вы доверяете Ubuntu/Canonical?

Bluetooth audio: только Linux?? Дожили

→

← 1 2 3 4 5 6 →

Ответ на: комментарий от Avial 26.02.25 19:40:01 MSK

или как?

This, например Zig/std.

dataman ★★★★★
(26.02.25 19:49:31 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 26.02.25 00:07:50 MSK

Получается плохой генератор случайных чисел:

$ cat tb.c
#include <x86intrin.h>
#include <stdint.h>
#include <stdio.h>
#ifdef NOINLINE
#define ATTR __attribute__ ((noinline))
#else
#define ATTR
#endif

void ATTR tmp_swap(volatile int *a, volatile int *b)
{
	int tmp = *a;
	*a = *b;
	*b = tmp;
}

void ATTR xor_swap(volatile int *a, volatile int *b)
{
	*a ^= *b;
	*b ^= *a;
	*a ^= *b;
}

void ATTR minus_swap(volatile int *a, volatile int *b)
{
	*a = *a + *b;
	*b = *a - *b;
	*a = *a - *b;
}


int main(void)
{
	volatile int a = 1, b = 2;
        uint64_t t0, t1, t2, t3;

        t0 = _rdtsc();
        minus_swap(&a, &b);
        t1 = _rdtsc();
        xor_swap(&a, &b);
        t2 = _rdtsc();
        tmp_swap(&a, &b);
        t3 = _rdtsc();
        printf("minus:  %20ld\n", t1-t0);
        printf("xor:    %20ld\n", t2-t1);
        printf("tmp:    %20ld\n", t3-t2);

        return 0;
}
$ gcc -O3  tb.c 
$ ./a.out 
minus:                   205
xor:                      95
tmp:                      35
$ gcc -O3  tb.c -DNOINLINE
$ ./a.out 
minus:                   400
xor:                     125
tmp:                     138
$ ./a.out 
minus:                   375
xor:                     125
tmp:                     137
$ ./a.out 
minus:                   375
xor:                     125
tmp:                     137

luke ★★★★★
(26.02.25 20:07:10 MSK)

Ссылка

Ответ на: комментарий от firkax 26.02.25 03:02:38 MSK

Включая 16-битные, включая pre-C89 (K&R) компиляторы итд.

На Macintosh Programmers Workbench тоже запустится?

luke ★★★★★
(26.02.25 20:08:51 MSK)

Ссылка

Ответ на: комментарий от Avial 26.02.25 19:40:01 MSK

«Зло не может создать ничего нового, оно может только испортить и разрушить то, что изобрели или создали добрые силы»,

— Дж. Р. Р. Толкин

PPP328 ★★★★★
(26.02.25 20:17:36 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.02.25 16:20:32 MSK

Ну им же надо чем-то платить всем вот этим агитаторам из Rust Evangelism Strike Force.

Stanson ★★★★★
(26.02.25 20:28:12 MSK)

Ссылка

Ответ на: комментарий от sergej 25.02.25 23:09:58 MSK

фортран обгоняет си в математике да и больше могёт, и ближе по синтаксису к ассемблеру сопроцессора.

s-warus ★★★
(26.02.25 20:36:14 MSK)

Я правильно понимаю, что эти милые люди сравнивают код на ржавом:

скомпиленный со всеми вовзможными флагами оптимизации, которые только смогли подобрать авторы, не угробив экзешник;
слинкованный статически;
с использованием горячего кода SIMD, выбранного под конкретный процессор во время компиляции и слинкованного так же статически;

с кодом на Си, взятым из zlib-ng, который:

был собран без оптимизации, пока авторы высера не доказали обратное;
был слинкован динамически (т.е. вызов происходит медленнее, чем при статической линковке);
который выбирает используемые функции SIMD в рантайме (что вносит дополнительные тормоза);
который вызывает код SIMD не напрямую, а через указатели, либо свичи (тормоза++);
и который любом случае чуть более чем в два раза медленнее своего прямого аналога из libdeflate;

получают при этом +16% производительности в сторону ржавого и на этом основании объявляют блескучу перемоху???

А ты говоришь, что ржавый уделал няшную по производительности???

Ёмаё, ну толсто же!

Эта ваша zlib-rs мало того, что недоделанная, так она ещё и медленнее libdeflate раза в полтора!

Я был о тебе лучшего мнения, чувак…

shkolnick-kun ★★★★★
(26.02.25 20:48:45 MSK)

Ответ на: комментарий от gaylord 25.02.25 23:12:12 MSK

Сишка медленнее ассемблера

Всё что нужно знать о квалификации растяп.

no-such-file ★★★★★
(26.02.25 20:51:12 MSK)

Ссылка

Ответ на: комментарий от vbr 25.02.25 23:24:08 MSK

Поэтому любой хороший видеокодек содержит много кода на ассемблере

На интринсиках, а не на ассемблере. И нет у Си никаких с этим проблем.

no-such-file ★★★★★
(26.02.25 20:54:24 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 26.02.25 12:52:52 MSK

Так если компилятор раста требует указания дополнительной по сравнению с си информации и на основании это информации генерирует более эффективный код, то за что они деньги просят? Оно по дефолту должно быстрее работать

cobold ★★★★★
(26.02.25 20:55:58 MSK)

Ответ на: комментарий от hateyoufeel 26.02.25 12:52:52 MSK

Они никого не обманывают

Допустим, они умалчивают…

no-such-file ★★★★★
(26.02.25 21:02:38 MSK)

Ссылка

Ответ на: комментарий от shkolnick-kun 26.02.25 20:48:45 MSK

с кодом на Си, взятым из zlib-ng, который:
…
любом случае чуть более чем в два раза медленнее своего прямого аналога из libdeflate;

Так как поддержку zlib-ng в lzbench добавил я, то считаю своим долгом :) уточнить, что на данный момент в lzbench используются не оптимизированные функции zlib-ng, а их generic-аналоги. Вот кусочек из Makefile:

ifeq "$(DONT_BUILD_ZLIB_NG)" "1"
    DEFINES += -DBENCH_REMOVE_ZLIB_NG
else
    ZLIB_NG_FILES  = lz/zlib-ng/adler32.o lz/zlib-ng/crc32.o lz/zlib-ng/deflate_medium.o lz/zlib-ng/deflate_stored.o lz/zlib-ng/inftrees.o lz/zlib-ng/uncompr.o
    ZLIB_NG_FILES += lz/zlib-ng/compress.o lz/zlib-ng/deflate.o lz/zlib-ng/deflate_quick.o lz/zlib-ng/functable.o lz/zlib-ng/insert_string.o lz/zlib-ng/zutil.o
    ZLIB_NG_FILES += lz/zlib-ng/cpu_features.o lz/zlib-ng/deflate_fast.o lz/zlib-ng/deflate_rle.o lz/zlib-ng/infback.o lz/zlib-ng/insert_string_roll.o
    ZLIB_NG_FILES += lz/zlib-ng/crc32_braid_comb.o lz/zlib-ng/deflate_huff.o lz/zlib-ng/deflate_slow.o lz/zlib-ng/inflate.o lz/zlib-ng/trees.o

    ZLIB_NG_FILES += lz/zlib-ng/arch/generic/adler32_c.o lz/zlib-ng/arch/generic/chunkset_c.o lz/zlib-ng/arch/generic/crc32_braid_c.o lz/zlib-ng/arch/generic/slide_hash_c.o
    ZLIB_NG_FILES += lz/zlib-ng/arch/generic/adler32_fold_c.o lz/zlib-ng/arch/generic/compare256_c.o lz/zlib-ng/arch/generic/crc32_fold_c.o

#    ZLIB_NG_FILES += lz/zlib-ng/arch/x86/adler32_avx2.o lz/zlib-ng/arch/x86/adler32_ssse3.o lz/zlib-ng/arch/x86/chunkset_ssse3.o lz/zlib-ng/arch/x86/crc32_vpclmulqdq.o
#    ZLIB_NG_FILES += lz/zlib-ng/arch/x86/adler32_avx512.o lz/zlib-ng/arch/x86/chunkset_avx2.o lz/zlib-ng/arch/x86/compare256_avx2.o lz/zlib-ng/arch/x86/slide_hash_avx2.o
#    ZLIB_NG_FILES += lz/zlib-ng/arch/x86/adler32_avx512_vnni.o lz/zlib-ng/arch/x86/chunkset_avx512.o lz/zlib-ng/arch/x86/compare256_sse2.o lz/zlib-ng/arch/x86/slide_hash_sse2.o
#    ZLIB_NG_FILES += lz/zlib-ng/arch/x86/adler32_sse42.o lz/zlib-ng/arch/x86/chunkset_sse2.o lz/zlib-ng/arch/x86/crc32_pclmulqdq.o lz/zlib-ng/arch/x86/x86_features.o
endif

dataman ★★★★★
(26.02.25 21:08:28 MSK)

Ссылка

Ответ на: комментарий от cobold 26.02.25 20:55:58 MSK

Так если компилятор раста требует указания дополнительной по сравнению с си информации

чо?

hateyoufeel ★★★★★
(26.02.25 21:34:25 MSK) автор топика

Ответ на: комментарий от s-warus 26.02.25 20:36:14 MSK

А есть пример где фортран рулит? Что-нибудь со степенями и комплексными числами?

luke ★★★★★
(26.02.25 21:40:07 MSK)

Ответ на: комментарий от hateyoufeel 26.02.25 21:34:25 MSK

Флаги march

luke ★★★★★
(26.02.25 21:41:44 MSK)

Ответ на: комментарий от luke 26.02.25 21:41:44 MSK

О боже вот это дополнительная информация!

hateyoufeel ★★★★★
(26.02.25 21:49:18 MSK) автор топика

Ответ на: комментарий от hateyoufeel 26.02.25 21:49:18 MSK

Ну для OoO не так важно, это верно.

luke ★★★★★
(26.02.25 21:54:10 MSK)

Ссылка

Ответ на: комментарий от shkolnick-kun 26.02.25 20:48:45 MSK

Буквально, да, все так. Причём с этим носятся на серьёзных щщах.

Obezyan ☆
(26.02.25 22:24:42 MSK)

Ссылка

Я предлагаю разделять высмеивание растофанбоев и обсуждения недостатков раста. У каждого языка есть свои сильные и слабые стороны, а у растофанбоев - пока только слабые :)

Obezyan ☆
(26.02.25 22:29:51 MSK)

Ответ на: комментарий от Obezyan 26.02.25 22:29:51 MSK

У каждого языка есть свои сильные и слабые стороны, а у растофанбоев - пока только слабые :)

Проблема в том, что на ЛОРе нет ярых фанатов раста. Иначе я бы им тоже повбрасывал.

hateyoufeel ★★★★★
(26.02.25 23:31:44 MSK) автор топика

Ответ на: комментарий от hateyoufeel 26.02.25 23:31:44 MSK

Проблема в том, что на ЛОРе нет ярых фанатов раста. Иначе я бы им тоже повбрасывал.

Ну, гейлорд пытался гнуть пальцы на эту тему, но ему быстро их сломали. Других пока не наблюдается, к сожалению.

А ведь у раста есть свои плюсы, вот только к скорости они отношения не имеют. Но я не собираюсь подсказывать фанбоям.

Obezyan ☆
(26.02.25 23:59:18 MSK)

Ответ на: комментарий от luke 26.02.25 21:40:07 MSK

А есть пример где фортран рулит? Что-нибудь со степенями и комплексными числами?

Например, Native Fortran Implementation of TensorFlow-Trained Deep and Bayesian Neural Networks ©.

quickquest ★★★★★
(27.02.25 00:21:47 MSK)

Ответ на: комментарий от Obezyan 26.02.25 23:59:18 MSK

Ну, гейлорд пытался гнуть пальцы на эту тему, но ему быстро их сломали. Других пока не наблюдается, к сожалению.

Не уверен, что обломали, но на фаната раста он даже близко не похож.

Трагедия ЛОРа в том, что население стареет: средний возраст ЛОРовцев – под 40. Ясен хрен тут никто ничего нового не осиливает.

hateyoufeel ★★★★★
(27.02.25 00:22:16 MSK) автор топика
Последнее исправление: hateyoufeel 27.02.25 00:22:41 MSK (всего исправлений: 1)

Ответ на: комментарий от hateyoufeel 27.02.25 00:22:16 MSK

Не уверен, что обломали, но на фаната раста он даже близко не похож.

с таким ником, он никем кроме растовика быть не может. и попробуйте это опровергнуть.

alysnix ★★★
(27.02.25 00:38:10 MSK)

Ответ на: комментарий от alysnix 27.02.25 00:38:10 MSK

с таким ником, он никем кроме растовика быть не может. и попробуйте это опровергнуть.

Ты эксперт по геям, что ли?

hateyoufeel ★★★★★
(27.02.25 00:39:55 MSK) автор топика

Ответ на: комментарий от hateyoufeel 27.02.25 00:39:55 MSK

время счас такое. приходится быть экспертом во всем.

alysnix ★★★
(27.02.25 00:47:26 MSK)

Ответ на: комментарий от hateyoufeel 26.02.25 23:31:44 MSK

А, вроде, был: ~~RazrFalcon~~ с его resvg: resvg 0.7 — библиотека отрисовки SVG (19.06.2019).

gag ★★★★★
(27.02.25 00:49:34 MSK)

Ссылка

Ответ на: комментарий от alysnix 27.02.25 00:47:26 MSK

Добавил в коммент, постараюсь учитывать твою экспертизу.

hateyoufeel ★★★★★
(27.02.25 00:49:42 MSK) автор топика

Ссылка

Ничёсе они там денег собрали на переписывание всего на раст. Я тоже хочу такой фигней страдать за деньги.

snizovtsev ★★★★★
(27.02.25 00:55:15 MSK)
Последнее исправление: snizovtsev 27.02.25 01:03:31 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от shkolnick-kun 26.02.25 20:48:45 MSK

Спасибо что время сэкономил, ясно что чудес не бывает, но я сразу не нашёл. Правда, справедливости ради, libdeflate никто не использует, на практике везде всё завязано на zlib API/ABI.

Интересно есть ли хотя бы смысл в плане безопасности, или у них там на hot path тот же unsafe натыкан ради производительности.

snizovtsev ★★★★★
(27.02.25 01:01:31 MSK)

Ссылка

Ответ на: комментарий от Obezyan 26.02.25 23:59:18 MSK

Я недавно узнал, что в rust нет возможности словить float-исключение (как fenv.h), типа если у тебя код делает полторы тысячи формул и в сях ты просто в конце чекаешь состояние флагов FE_DIVBYZERO/FE_INVALID/FE_OVERFLOW/FE_UNDERFLOW и если хотя бы один взведен - то дропаешь результат математики и ждешь следующей итерации (например удобно для потоковой обработки данных с измерительного оборудования).

В Rust предлагается на каждый float делать isnan/isinfinity etc.

PPP328 ★★★★★
(27.02.25 01:12:08 MSK)

Ссылка

Ответ на: комментарий от quickquest 27.02.25 00:21:47 MSK

Подробных результатов профайлинга конечно же нет?

luke ★★★★★
(27.02.25 01:27:17 MSK)

Ответ на: комментарий от hateyoufeel 27.02.25 00:39:55 MSK

Ты эксперт по геям, что ли?

а где я про них говорил???

alysnix ★★★
(27.02.25 01:27:44 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 26.02.25 23:31:44 MSK

Но без Эдика всё-равно как-то скучно.

luke ★★★★★
(27.02.25 01:31:30 MSK)

Ссылка

Ответ на: комментарий от luke 27.02.25 01:27:17 MSK

Подробных результатов профайлинга конечно же нет?

Результаты лень искать, но глянь Fortran project ©.

quickquest ★★★★★
(27.02.25 02:19:53 MSK)

Ответ на: комментарий от PPP328 25.02.25 23:07:26 MSK

Не совсем так. Чистилка и рендерилка SVG от ~~RazrFalcon~~ по качеству работы давала прочихаться любым сишным приблудам.

AP ★★★★★
(27.02.25 03:02:24 MSK)

Всё конечно хорошо и верно, но морковка не купился на этот раз.

XMPP ★
(27.02.25 08:06:02 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 25.02.25 23:08:15 MSK

Это всё равно получается безопаснее чем писать на Си.

Нет https://github.com/Speykious/cve-rs

Из разряда «дай дураку х#й стеклянный…»

bdrbt
(27.02.25 08:37:31 MSK)

Ссылка

Ответ на: комментарий от Avial 26.02.25 19:40:01 MSK

Это как с неграми и педиками в кино, они не могут заделать что-то успешное, состоявшееся и самобытное, так что если они не влезут в уже состоявшийся успешный проект - их никто не заметит.

bdrbt
(27.02.25 08:55:07 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 26.02.25 21:34:25 MSK

Все эти mut, указания владения это же дополнительная информация по сравнению с кодом на си? Компилятор раста без нее не соберёт программу? Значит компилятор требует этой информации?

cobold ★★★★★
(27.02.25 09:27:04 MSK)

Ответ на: комментарий от cobold 27.02.25 09:27:04 MSK

Все эти mut, указания владения это же дополнительная информация по сравнению с кодом на си?

Я даже не знаю, как это прокомментировать. Это настолько тупо, что я просто поражён!

hateyoufeel ★★★★★
(27.02.25 10:54:31 MSK) автор топика

Ссылка

Ответ на: комментарий от quickquest 27.02.25 02:19:53 MSK

С ходу нифига не находится.

Я понимаю что ребята код писали, большое и суровое дело, но всё это выглядит только как начало разговора.

luke ★★★★★
(27.02.25 11:40:05 MSK)

Ссылка

Ответ на: комментарий от AP 27.02.25 03:02:24 MSK

Подтверждаю. Интегрировал в один сервис эту штуку - огонь, скорость генерации увеличило примерно в 1000 раз. Там растеризация была из SVG в PNG. Потом, правда, вообще всё переписал на JavaScript и увеличил ещё в 100 раз, но это уже другая история.

vbr ★★★★★
(27.02.25 12:03:38 MSK)
Последнее исправление: vbr 27.02.25 12:04:23 MSK (всего исправлений: 1)

Ответ на: комментарий от hateyoufeel 25.02.25 23:41:15 MSK

Си не является простым языком. Даже близко.

А что есть проще C? Ассемблер?

skiminok1986 ★★★★★
(27.02.25 12:42:27 MSK)

Ответ на: комментарий от skiminok1986 27.02.25 12:42:27 MSK

А что есть проще C?

Какие-нибудь Nim или Zig. Если взять подмножество Rust без borrow checker и лайфтаймов, оно тоже будет проще.

В Си просто вагон правил по семантике вокруг указателей, модели памяти и прочих крайне неочевидных штук. Сделать совместимую со стандартом реализацию Си – достаточно сложная задача. Смотри выше по треду мою переписку с sjinks про restrict. И это только вершина айсберга всей этой безумно душной сишной хреноты.

hateyoufeel ★★★★★
(27.02.25 12:54:12 MSK) автор топика

Ответ на: комментарий от hateyoufeel 27.02.25 12:54:12 MSK

Сделать совместимую со стандартом реализацию Си – достаточно сложная задача

Сделать оптимизирующий компилятор - достаточно сложная задача. А так: каждый доступ к memory location компилируем в соответствующую(ие) инструкции процессора, restrict игнорируем, определяем __STDC_NO_ATOMICS__ и забиваем на них.

red75prim ★★★
(27.02.25 13:31:39 MSK)
Последнее исправление: red75prim 27.02.25 13:31:53 MSK (всего исправлений: 1)

Ответ на: комментарий от red75prim 27.02.25 13:31:39 MSK

restrict игнорируем,

И получаем сломанный код. Браво!

hateyoufeel ★★★★★
(27.02.25 13:33:05 MSK) автор топика

Ответ на: комментарий от hateyoufeel 27.02.25 13:33:05 MSK

И получаем сломанный код. Браво!

Не-а.

The intended use of the restrict qualifier (like the register storage class) is to promote optimization, and deleting all instances of the qualifier from all preprocessing translation units composing a conforming program does not change its meaning (i.e., observable behavior).

red75prim ★★★
(27.02.25 13:35:22 MSK)

Ответ на: комментарий от sergej 25.02.25 23:11:25 MSK

утверждение про обгон сишечки - это примерно как язык X обогнал ассемблер

Неоднократно читал про обгон ассемблера на Форте :)

question4 ★★★★★
(27.02.25 13:36:17 MSK)

Ссылка

Ответ на: комментарий от red75prim 27.02.25 13:35:22 MSK

Не-а.

Да-а. Смотри выше пример как restrict меняет поведение функции.

a conforming program does not change its meaning (i.e., observable behavior).

Ключевой термин «conforming program». Половина сишного кода поражена UB.

Один хрен restrict даже не самое стрёмное тут. Strict aliasing хуже.

hateyoufeel ★★★★★
(27.02.25 13:38:56 MSK) автор топика
Последнее исправление: hateyoufeel 27.02.25 13:40:26 MSK (всего исправлений: 1)

Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)

← 1 2 3 4 5 6 →

←	Вы доверяете Ubuntu/Canonical?

Talks

Bluetooth audio: только Linux?? Дожили

→

Похожие темы