История изменений

Спасибо, да, на практике имеет смысл и часто надо хранить много одинаковых данных, там по сути 9 114 файлов с одинаковым содержимым на 90%. И весь бенчмарк заключается в том что они тренируют архиватор чтобы он составил словарь после чего очень эффективно по нему жал однотипные данные с не шибко большими изменениями.

А ещё они в своём же публичном датасете лоханулись ибо есть такое

"API rate limit exceeded for 70.91.205.233. (But here's the good news: Authenticated requests get a higher rate limit. Check out the documentation for more details.)"

Это случается тогда когда ты по GitHub токену доступа к API или вообще без него, вслепую долбишь запросы случайного характера. Я сам такие ошибки получал когда делал сборщик информации о релизах сотен проектов на гитхабе. Это фейл, факап и откровенно они даже не смотрели что они бенчмаркают.

grep "API rate limit" -r ./ | wc -l 257

Датасет состоит из 257 файлов в которых одно и тоже, а именно ошибка превышения запроса к API. Ну, такооее. Кому то было похеру, зато какие красивые графики хехехехе. Неглядя, за 5 митут нагенерили данных и не проверяя их сделали презентацию, кек. фейспук :D

Да я маленечко злорадствую, но это грязные данные. Я лучше наверное сяду и ручками напишу генераторы. Будет проще. Но всё равно спасибо, без сарказмов.

Спасибо, да, на практике имеет смысл и часто надо хранить много одинаковых данных, там по сути 9 114 файлов с одинаковым содержимым на 90%. И весь бенчмарк заключается в том что они тренируют архиватор чтобы он составил словарь после чего очень эффективно по нему жал однотипные данные с не шибко большими изменениями.

А ещё они в своём же публичном датасете лоханулись ибо есть такое

"API rate limit exceeded for 70.91.205.233. (But here's the good news: Authenticated requests get a higher rate limit. Check out the documentation for more details.)"

Это случается тогда когда ты по GitHub токену доступа к API или вообще без него, вслепую долбишь запросы случайного характера. Я сам такие ошибки получал когда делал сборщик информации о релизах сотен проектов на гитхабе. Это фейл, факап и откровенно они даже не смотрели что они бенчмаркают.

grep "API rate limit" -r ./ | wc -l 257

Датасет состоит из 257 файлов в которых одно и тоже, а именно ошибка превышения запроса к API. Ну, такооее. Кому то было похеру, зато какие красивые графики хехехехе. Неглядя, за 5 митут нагенерили данных и не проверяя их сделали презентацию, кек. фейспук :D

Да я маленечко злорадствую, но это грязные данные. Я лучше наверное сяду и ручками напишу генераторы. Будет проще. Всем спасибо.

Спасибо, да, на практике имеет смысл и часто надо хранить много одинаковых данных, там по сути 9 114 файлов с одинаковым содержимым на 90%. И весь бенчмарк заключается в том что они тренируют архиватор чтобы он составил словарь после чего очень эффективно по нему жал однотипные данные с не шибко большими изменениями.

А ещё они в своём же публичном датасете лоханулись ибо есть такое

"API rate limit exceeded for 70.91.205.233. (But here's the good news: Authenticated requests get a higher rate limit. Check out the documentation for more details.)"

Это случается тогда когда ты по GitHub токену доступа к API или вообще без него, вслепую долбишь запросы случайного характера. Я сам такие ошибки получал когда делал сборщик информации о релизах сотен проектов на гитхабе. Это фейл, факап и откровенно они даже не смотрели что они бенчмаркают.

grep "API rate limit" -r ./ | wc -l 257

Датасет состоит из 257 файлов в которых одно и тоже, а именно ошибка превышения запроса к API. Ну, такооее. Кому то было похеру, зато какие красивые графики хехехехе