Rust обогнал Сишечку по скорости распаковки

0

6

Привет, ЛОР!

Случилось непредвиденное и невероятное: реализация библиотеки zlib на Rust (zlib-rs) обогнала реализацию на C по скорости распаковки и показывает примерно схожую с последней скорость запаковки данных. Разница в производительности может достигать аж 14%.

Есть ли смысл теперь вообще писать новый софт на Си, если даже в производительности он начинает терять лидерство? Что скажут эксперты по Си и почему zlib на Си так плохо оптимизирован?

Ссылка на бенчмарки: https://trifectatech.org/blog/zlib-rs-is-faster-than-c/

Перемещено dataman из development

Ссылка

←	Вы доверяете Ubuntu/Canonical?

Bluetooth audio: только Linux?? Дожили

→

← 1 2 3 4 5 6 7 8 9 10 →

Ответ на: комментарий от Avial 26.02.25 19:40:01 MSK

или как?

This, например Zig/std.

dataman ★★★★★
(26.02.25 19:49:31 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 26.02.25 00:07:50 MSK

Получается плохой генератор случайных чисел:

$ cat tb.c
#include <x86intrin.h>
#include <stdint.h>
#include <stdio.h>
#ifdef NOINLINE
#define ATTR __attribute__ ((noinline))
#else
#define ATTR
#endif

void ATTR tmp_swap(volatile int *a, volatile int *b)
{
	int tmp = *a;
	*a = *b;
	*b = tmp;
}

void ATTR xor_swap(volatile int *a, volatile int *b)
{
	*a ^= *b;
	*b ^= *a;
	*a ^= *b;
}

void ATTR minus_swap(volatile int *a, volatile int *b)
{
	*a = *a + *b;
	*b = *a - *b;
	*a = *a - *b;
}


int main(void)
{
	volatile int a = 1, b = 2;
        uint64_t t0, t1, t2, t3;

        t0 = _rdtsc();
        minus_swap(&a, &b);
        t1 = _rdtsc();
        xor_swap(&a, &b);
        t2 = _rdtsc();
        tmp_swap(&a, &b);
        t3 = _rdtsc();
        printf("minus:  %20ld\n", t1-t0);
        printf("xor:    %20ld\n", t2-t1);
        printf("tmp:    %20ld\n", t3-t2);

        return 0;
}
$ gcc -O3  tb.c 
$ ./a.out 
minus:                   205
xor:                      95
tmp:                      35
$ gcc -O3  tb.c -DNOINLINE
$ ./a.out 
minus:                   400
xor:                     125
tmp:                     138
$ ./a.out 
minus:                   375
xor:                     125
tmp:                     137
$ ./a.out 
minus:                   375
xor:                     125
tmp:                     137

luke ★★★★★
(26.02.25 20:07:10 MSK)

Ссылка

Ответ на: комментарий от firkax 26.02.25 03:02:38 MSK

Включая 16-битные, включая pre-C89 (K&R) компиляторы итд.

На Macintosh Programmers Workbench тоже запустится?

luke ★★★★★
(26.02.25 20:08:51 MSK)

Ссылка

Ответ на: комментарий от Avial 26.02.25 19:40:01 MSK

«Зло не может создать ничего нового, оно может только испортить и разрушить то, что изобрели или создали добрые силы»,

— Дж. Р. Р. Толкин

PPP328 ★★★★★
(26.02.25 20:17:36 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.02.25 16:20:32 MSK

Ну им же надо чем-то платить всем вот этим агитаторам из Rust Evangelism Strike Force.

Stanson ★★★★★
(26.02.25 20:28:12 MSK)

Ссылка

Ответ на: комментарий от sergej 25.02.25 23:09:58 MSK

фортран обгоняет си в математике да и больше могёт, и ближе по синтаксису к ассемблеру сопроцессора.

s-warus ★★★★
(26.02.25 20:36:14 MSK)

Я правильно понимаю, что эти милые люди сравнивают код на ржавом:

скомпиленный со всеми вовзможными флагами оптимизации, которые только смогли подобрать авторы, не угробив экзешник;
слинкованный статически;
с использованием горячего кода SIMD, выбранного под конкретный процессор во время компиляции и слинкованного так же статически;

с кодом на Си, взятым из zlib-ng, который:

был собран без оптимизации, пока авторы высера не доказали обратное;
был слинкован динамически (т.е. вызов происходит медленнее, чем при статической линковке);
который выбирает используемые функции SIMD в рантайме (что вносит дополнительные тормоза);
который вызывает код SIMD не напрямую, а через указатели, либо свичи (тормоза++);
и который любом случае чуть более чем в два раза медленнее своего прямого аналога из libdeflate;

получают при этом +16% производительности в сторону ржавого и на этом основании объявляют блескучу перемоху???

А ты говоришь, что ржавый уделал няшную по производительности???

Ёмаё, ну толсто же!

Эта ваша zlib-rs мало того, что недоделанная, так она ещё и медленнее libdeflate раза в полтора!

Я был о тебе лучшего мнения, чувак…

shkolnick-kun ★★★★★
(26.02.25 20:48:45 MSK)

Ответ на: комментарий от gaylord 25.02.25 23:12:12 MSK

Сишка медленнее ассемблера

Всё что нужно знать о квалификации растяп.

no-such-file ★★★★★
(26.02.25 20:51:12 MSK)

Ссылка

Ответ на: комментарий от vbr 25.02.25 23:24:08 MSK

Поэтому любой хороший видеокодек содержит много кода на ассемблере

На интринсиках, а не на ассемблере. И нет у Си никаких с этим проблем.

no-such-file ★★★★★
(26.02.25 20:54:24 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 26.02.25 12:52:52 MSK

Так если компилятор раста требует указания дополнительной по сравнению с си информации и на основании это информации генерирует более эффективный код, то за что они деньги просят? Оно по дефолту должно быстрее работать

cobold ★★★★★
(26.02.25 20:55:58 MSK)

Ответ на: комментарий от hateyoufeel 26.02.25 12:52:52 MSK

Они никого не обманывают

Допустим, они умалчивают…

no-such-file ★★★★★
(26.02.25 21:02:38 MSK)

Ссылка

Ответ на: комментарий от shkolnick-kun 26.02.25 20:48:45 MSK

с кодом на Си, взятым из zlib-ng, который:
…
любом случае чуть более чем в два раза медленнее своего прямого аналога из libdeflate;

Так как поддержку zlib-ng в lzbench добавил я, то считаю своим долгом :) уточнить, что на данный момент в lzbench используются не оптимизированные функции zlib-ng, а их generic-аналоги. Вот кусочек из Makefile:

ifeq "$(DONT_BUILD_ZLIB_NG)" "1"
    DEFINES += -DBENCH_REMOVE_ZLIB_NG
else
    ZLIB_NG_FILES  = lz/zlib-ng/adler32.o lz/zlib-ng/crc32.o lz/zlib-ng/deflate_medium.o lz/zlib-ng/deflate_stored.o lz/zlib-ng/inftrees.o lz/zlib-ng/uncompr.o
    ZLIB_NG_FILES += lz/zlib-ng/compress.o lz/zlib-ng/deflate.o lz/zlib-ng/deflate_quick.o lz/zlib-ng/functable.o lz/zlib-ng/insert_string.o lz/zlib-ng/zutil.o
    ZLIB_NG_FILES += lz/zlib-ng/cpu_features.o lz/zlib-ng/deflate_fast.o lz/zlib-ng/deflate_rle.o lz/zlib-ng/infback.o lz/zlib-ng/insert_string_roll.o
    ZLIB_NG_FILES += lz/zlib-ng/crc32_braid_comb.o lz/zlib-ng/deflate_huff.o lz/zlib-ng/deflate_slow.o lz/zlib-ng/inflate.o lz/zlib-ng/trees.o

    ZLIB_NG_FILES += lz/zlib-ng/arch/generic/adler32_c.o lz/zlib-ng/arch/generic/chunkset_c.o lz/zlib-ng/arch/generic/crc32_braid_c.o lz/zlib-ng/arch/generic/slide_hash_c.o
    ZLIB_NG_FILES += lz/zlib-ng/arch/generic/adler32_fold_c.o lz/zlib-ng/arch/generic/compare256_c.o lz/zlib-ng/arch/generic/crc32_fold_c.o

#    ZLIB_NG_FILES += lz/zlib-ng/arch/x86/adler32_avx2.o lz/zlib-ng/arch/x86/adler32_ssse3.o lz/zlib-ng/arch/x86/chunkset_ssse3.o lz/zlib-ng/arch/x86/crc32_vpclmulqdq.o
#    ZLIB_NG_FILES += lz/zlib-ng/arch/x86/adler32_avx512.o lz/zlib-ng/arch/x86/chunkset_avx2.o lz/zlib-ng/arch/x86/compare256_avx2.o lz/zlib-ng/arch/x86/slide_hash_avx2.o
#    ZLIB_NG_FILES += lz/zlib-ng/arch/x86/adler32_avx512_vnni.o lz/zlib-ng/arch/x86/chunkset_avx512.o lz/zlib-ng/arch/x86/compare256_sse2.o lz/zlib-ng/arch/x86/slide_hash_sse2.o
#    ZLIB_NG_FILES += lz/zlib-ng/arch/x86/adler32_sse42.o lz/zlib-ng/arch/x86/chunkset_sse2.o lz/zlib-ng/arch/x86/crc32_pclmulqdq.o lz/zlib-ng/arch/x86/x86_features.o
endif

dataman ★★★★★
(26.02.25 21:08:28 MSK)

Ссылка

Ответ на: комментарий от cobold 26.02.25 20:55:58 MSK

Так если компилятор раста требует указания дополнительной по сравнению с си информации

чо?

~~hateyoufeel~~ ★★★★★
(26.02.25 21:34:25 MSK) автор топика

Ответ на: комментарий от s-warus 26.02.25 20:36:14 MSK

А есть пример где фортран рулит? Что-нибудь со степенями и комплексными числами?

luke ★★★★★
(26.02.25 21:40:07 MSK)

Ответ на: комментарий от hateyoufeel 26.02.25 21:34:25 MSK

Флаги march

luke ★★★★★
(26.02.25 21:41:44 MSK)

Ответ на: комментарий от luke 26.02.25 21:41:44 MSK

О боже вот это дополнительная информация!

~~hateyoufeel~~ ★★★★★
(26.02.25 21:49:18 MSK) автор топика

Ответ на: комментарий от hateyoufeel 26.02.25 21:49:18 MSK

Ну для OoO не так важно, это верно.

luke ★★★★★
(26.02.25 21:54:10 MSK)

Ссылка

Ответ на: комментарий от shkolnick-kun 26.02.25 20:48:45 MSK

Буквально, да, все так. Причём с этим носятся на серьёзных щщах.

Obezyan ☆
(26.02.25 22:24:42 MSK)

Ссылка

Я предлагаю разделять высмеивание растофанбоев и обсуждения недостатков раста. У каждого языка есть свои сильные и слабые стороны, а у растофанбоев - пока только слабые :)

Obezyan ☆
(26.02.25 22:29:51 MSK)

Ответ на: комментарий от Obezyan 26.02.25 22:29:51 MSK

У каждого языка есть свои сильные и слабые стороны, а у растофанбоев - пока только слабые :)

Проблема в том, что на ЛОРе нет ярых фанатов раста. Иначе я бы им тоже повбрасывал.

~~hateyoufeel~~ ★★★★★
(26.02.25 23:31:44 MSK) автор топика

Ответ на: комментарий от hateyoufeel 26.02.25 23:31:44 MSK

Проблема в том, что на ЛОРе нет ярых фанатов раста. Иначе я бы им тоже повбрасывал.

Ну, гейлорд пытался гнуть пальцы на эту тему, но ему быстро их сломали. Других пока не наблюдается, к сожалению.

А ведь у раста есть свои плюсы, вот только к скорости они отношения не имеют. Но я не собираюсь подсказывать фанбоям.

Obezyan ☆
(26.02.25 23:59:18 MSK)

Ответ на: комментарий от luke 26.02.25 21:40:07 MSK

А есть пример где фортран рулит? Что-нибудь со степенями и комплексными числами?

Например, Native Fortran Implementation of TensorFlow-Trained Deep and Bayesian Neural Networks ©.

quickquest ★★★★★
(27.02.25 00:21:47 MSK)

Ответ на: комментарий от Obezyan 26.02.25 23:59:18 MSK

Ну, гейлорд пытался гнуть пальцы на эту тему, но ему быстро их сломали. Других пока не наблюдается, к сожалению.

Не уверен, что обломали, но на фаната раста он даже близко не похож.

Трагедия ЛОРа в том, что население стареет: средний возраст ЛОРовцев – под 40. Ясен хрен тут никто ничего нового не осиливает.

~~hateyoufeel~~ ★★★★★
(27.02.25 00:22:16 MSK) автор топика
Последнее исправление: hateyoufeel 27.02.25 00:22:41 MSK (всего исправлений: 1)

Ответ на: комментарий от hateyoufeel 27.02.25 00:22:16 MSK

Не уверен, что обломали, но на фаната раста он даже близко не похож.

с таким ником, он никем кроме растовика быть не может. и попробуйте это опровергнуть.

alysnix ★★★
(27.02.25 00:38:10 MSK)

Ответ на: комментарий от alysnix 27.02.25 00:38:10 MSK

с таким ником, он никем кроме растовика быть не может. и попробуйте это опровергнуть.

Ты эксперт по геям, что ли?

~~hateyoufeel~~ ★★★★★
(27.02.25 00:39:55 MSK) автор топика

Ответ на: комментарий от hateyoufeel 27.02.25 00:39:55 MSK

время счас такое. приходится быть экспертом во всем.

alysnix ★★★
(27.02.25 00:47:26 MSK)

Ответ на: комментарий от hateyoufeel 26.02.25 23:31:44 MSK

А, вроде, был: ~~RazrFalcon~~ с его resvg: resvg 0.7 — библиотека отрисовки SVG (19.06.2019).

gag ★★★★★
(27.02.25 00:49:34 MSK)

Ссылка

Ответ на: комментарий от alysnix 27.02.25 00:47:26 MSK

Добавил в коммент, постараюсь учитывать твою экспертизу.

~~hateyoufeel~~ ★★★★★
(27.02.25 00:49:42 MSK) автор топика

Ссылка

Ничёсе они там денег собрали на переписывание всего на раст. Я тоже хочу такой фигней страдать за деньги.

snizovtsev ★★★★★
(27.02.25 00:55:15 MSK)
Последнее исправление: snizovtsev 27.02.25 01:03:31 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от shkolnick-kun 26.02.25 20:48:45 MSK

Спасибо что время сэкономил, ясно что чудес не бывает, но я сразу не нашёл. Правда, справедливости ради, libdeflate никто не использует, на практике везде всё завязано на zlib API/ABI.

Интересно есть ли хотя бы смысл в плане безопасности, или у них там на hot path тот же unsafe натыкан ради производительности.

snizovtsev ★★★★★
(27.02.25 01:01:31 MSK)

Ссылка

Ответ на: комментарий от Obezyan 26.02.25 23:59:18 MSK

Я недавно узнал, что в rust нет возможности словить float-исключение (как fenv.h), типа если у тебя код делает полторы тысячи формул и в сях ты просто в конце чекаешь состояние флагов FE_DIVBYZERO/FE_INVALID/FE_OVERFLOW/FE_UNDERFLOW и если хотя бы один взведен - то дропаешь результат математики и ждешь следующей итерации (например удобно для потоковой обработки данных с измерительного оборудования).

В Rust предлагается на каждый float делать isnan/isinfinity etc.

PPP328 ★★★★★
(27.02.25 01:12:08 MSK)

Ссылка

Ответ на: комментарий от quickquest 27.02.25 00:21:47 MSK

Подробных результатов профайлинга конечно же нет?

luke ★★★★★
(27.02.25 01:27:17 MSK)

Ответ на: комментарий от hateyoufeel 27.02.25 00:39:55 MSK

Ты эксперт по геям, что ли?

а где я про них говорил???

alysnix ★★★
(27.02.25 01:27:44 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 26.02.25 23:31:44 MSK

Но без Эдика всё-равно как-то скучно.

luke ★★★★★
(27.02.25 01:31:30 MSK)

Ссылка

Ответ на: комментарий от luke 27.02.25 01:27:17 MSK

Подробных результатов профайлинга конечно же нет?

Результаты лень искать, но глянь Fortran project ©.

quickquest ★★★★★
(27.02.25 02:19:53 MSK)

Ответ на: комментарий от PPP328 25.02.25 23:07:26 MSK

Не совсем так. Чистилка и рендерилка SVG от ~~RazrFalcon~~ по качеству работы давала прочихаться любым сишным приблудам.

AP ★★★★★
(27.02.25 03:02:24 MSK)

Всё конечно хорошо и верно, но морковка не купился на этот раз.

XMPP ★
(27.02.25 08:06:02 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 25.02.25 23:08:15 MSK

Это всё равно получается безопаснее чем писать на Си.

Нет https://github.com/Speykious/cve-rs

Из разряда «дай дураку х#й стеклянный…»

bdrbt ★
(27.02.25 08:37:31 MSK)

Ссылка

Ответ на: комментарий от Avial 26.02.25 19:40:01 MSK

Это как с неграми и педиками в кино, они не могут заделать что-то успешное, состоявшееся и самобытное, так что если они не влезут в уже состоявшийся успешный проект - их никто не заметит.

bdrbt ★
(27.02.25 08:55:07 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 26.02.25 21:34:25 MSK

Все эти mut, указания владения это же дополнительная информация по сравнению с кодом на си? Компилятор раста без нее не соберёт программу? Значит компилятор требует этой информации?

cobold ★★★★★
(27.02.25 09:27:04 MSK)

Ответ на: комментарий от cobold 27.02.25 09:27:04 MSK

Все эти mut, указания владения это же дополнительная информация по сравнению с кодом на си?

Я даже не знаю, как это прокомментировать. Это настолько тупо, что я просто поражён!

~~hateyoufeel~~ ★★★★★
(27.02.25 10:54:31 MSK) автор топика

Ссылка

Ответ на: комментарий от quickquest 27.02.25 02:19:53 MSK

С ходу нифига не находится.

Я понимаю что ребята код писали, большое и суровое дело, но всё это выглядит только как начало разговора.

luke ★★★★★
(27.02.25 11:40:05 MSK)

Ссылка

Ответ на: комментарий от AP 27.02.25 03:02:24 MSK

Подтверждаю. Интегрировал в один сервис эту штуку - огонь, скорость генерации увеличило примерно в 1000 раз. Там растеризация была из SVG в PNG. Потом, правда, вообще всё переписал на JavaScript и увеличил ещё в 100 раз, но это уже другая история.

vbr ★★★★★
(27.02.25 12:03:38 MSK)
Последнее исправление: vbr 27.02.25 12:04:23 MSK (всего исправлений: 1)

Ответ на: комментарий от hateyoufeel 25.02.25 23:41:15 MSK

Си не является простым языком. Даже близко.

А что есть проще C? Ассемблер?

skiminok1986 ★★★★★
(27.02.25 12:42:27 MSK)

Ответ на: комментарий от skiminok1986 27.02.25 12:42:27 MSK

А что есть проще C?

Какие-нибудь Nim или Zig. Если взять подмножество Rust без borrow checker и лайфтаймов, оно тоже будет проще.

В Си просто вагон правил по семантике вокруг указателей, модели памяти и прочих крайне неочевидных штук. Сделать совместимую со стандартом реализацию Си – достаточно сложная задача. Смотри выше по треду мою переписку с sjinks про restrict. И это только вершина айсберга всей этой безумно душной сишной хреноты.

~~hateyoufeel~~ ★★★★★
(27.02.25 12:54:12 MSK) автор топика

Ответ на: комментарий от hateyoufeel 27.02.25 12:54:12 MSK

Сделать совместимую со стандартом реализацию Си – достаточно сложная задача

Сделать оптимизирующий компилятор - достаточно сложная задача. А так: каждый доступ к memory location компилируем в соответствующую(ие) инструкции процессора, restrict игнорируем, определяем __STDC_NO_ATOMICS__ и забиваем на них.

red75prim ★★★
(27.02.25 13:31:39 MSK)
Последнее исправление: red75prim 27.02.25 13:31:53 MSK (всего исправлений: 1)

Ответ на: комментарий от red75prim 27.02.25 13:31:39 MSK

restrict игнорируем,

И получаем сломанный код. Браво!

~~hateyoufeel~~ ★★★★★
(27.02.25 13:33:05 MSK) автор топика

Ответ на: комментарий от hateyoufeel 27.02.25 13:33:05 MSK

И получаем сломанный код. Браво!

Не-а.

The intended use of the restrict qualifier (like the register storage class) is to promote optimization, and deleting all instances of the qualifier from all preprocessing translation units composing a conforming program does not change its meaning (i.e., observable behavior).

red75prim ★★★
(27.02.25 13:35:22 MSK)

Ответ на: комментарий от sergej 25.02.25 23:11:25 MSK

утверждение про обгон сишечки - это примерно как язык X обогнал ассемблер

Неоднократно читал про обгон ассемблера на Форте :)

question4 ★★★★★
(27.02.25 13:36:17 MSK)

Ссылка

Ответ на: комментарий от red75prim 27.02.25 13:35:22 MSK

Не-а.

Да-а. Смотри выше пример как restrict меняет поведение функции.

a conforming program does not change its meaning (i.e., observable behavior).

Ключевой термин «conforming program». Половина сишного кода поражена UB.

Один хрен restrict даже не самое стрёмное тут. Strict aliasing хуже.

~~hateyoufeel~~ ★★★★★
(27.02.25 13:38:56 MSK) автор топика
Последнее исправление: hateyoufeel 27.02.25 13:40:26 MSK (всего исправлений: 1)

Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)

← 1 2 3 4 5 6 7 8 9 10 →

←	Вы доверяете Ubuntu/Canonical?

Talks

Bluetooth audio: только Linux?? Дожили

→

Похожие темы