История изменений
Исправление LINUX-ORG-RU, (текущая версия) :
Спасибо, да, на практике имеет смысл и часто надо хранить много одинаковых данных, там по сути 9 114
файлов с одинаковым содержимым на 90%. И весь бенчмарк заключается в том что они тренируют архиватор чтобы он составил словарь после чего очень эффективно по нему жал однотипные данные с не шибко большими изменениями.
А ещё они в своём же публичном датасете лоханулись ибо есть такое
"API rate limit exceeded for 70.91.205.233. (But here's the good news: Authenticated requests get a higher rate limit. Check out the documentation for more details.)"
Это случается тогда когда ты по GitHub токену доступа к API или вообще без него, вслепую долбишь запросы случайного характера. Я сам такие ошибки получал когда делал сборщик информации о релизах сотен проектов на гитхабе. Это фейл, факап и откровенно они даже не смотрели что они бенчмаркают.
grep "API rate limit" -r ./ | wc -l 257
Датасет состоит из 257 файлов в которых одно и тоже, а именно ошибка превышения запроса к API. Ну, такооее. Кому то было похеру, зато какие красивые графики хехехехе. Неглядя, за 5 митут нагенерили данных и не проверяя их сделали презентацию, кек. фейспук :D
Да я маленечко злорадствую, но это грязные данные. Я лучше наверное сяду и ручками напишу генераторы. Будет проще. Но всё равно спасибо, без сарказмов.
Исправление LINUX-ORG-RU, :
Спасибо, да, на практике имеет смысл и часто надо хранить много одинаковых данных, там по сути 9 114
файлов с одинаковым содержимым на 90%. И весь бенчмарк заключается в том что они тренируют архиватор чтобы он составил словарь после чего очень эффективно по нему жал однотипные данные с не шибко большими изменениями.
А ещё они в своём же публичном датасете лоханулись ибо есть такое
"API rate limit exceeded for 70.91.205.233. (But here's the good news: Authenticated requests get a higher rate limit. Check out the documentation for more details.)"
Это случается тогда когда ты по GitHub токену доступа к API или вообще без него, вслепую долбишь запросы случайного характера. Я сам такие ошибки получал когда делал сборщик информации о релизах сотен проектов на гитхабе. Это фейл, факап и откровенно они даже не смотрели что они бенчмаркают.
grep "API rate limit" -r ./ | wc -l 257
Датасет состоит из 257 файлов в которых одно и тоже, а именно ошибка превышения запроса к API. Ну, такооее. Кому то было похеру, зато какие красивые графики хехехехе. Неглядя, за 5 митут нагенерили данных и не проверяя их сделали презентацию, кек. фейспук :D
Да я маленечко злорадствую, но это грязные данные. Я лучше наверное сяду и ручками напишу генераторы. Будет проще. Всем спасибо.
Исходная версия LINUX-ORG-RU, :
Спасибо, да, на практике имеет смысл и часто надо хранить много одинаковых данных, там по сути 9 114
файлов с одинаковым содержимым на 90%. И весь бенчмарк заключается в том что они тренируют архиватор чтобы он составил словарь после чего очень эффективно по нему жал однотипные данные с не шибко большими изменениями.
А ещё они в своём же публичном датасете лоханулись ибо есть такое
"API rate limit exceeded for 70.91.205.233. (But here's the good news: Authenticated requests get a higher rate limit. Check out the documentation for more details.)"
Это случается тогда когда ты по GitHub токену доступа к API или вообще без него, вслепую долбишь запросы случайного характера. Я сам такие ошибки получал когда делал сборщик информации о релизах сотен проектов на гитхабе. Это фейл, факап и откровенно они даже не смотрели что они бенчмаркают.
grep "API rate limit" -r ./ | wc -l 257
Датасет состоит из 257 файлов в которых одно и тоже, а именно ошибка превышения запроса к API. Ну, такооее. Кому то было похеру, зато какие красивые графики хехехехе