История изменений
Исправление firkax, (текущая версия) :
Есть операция по сборке датасета для обучения НС (обучается на другой машине), где прочитывается около 9 ТБ картинок. Хотя на выходе получается не больше 250 - 300 ГБ, но процедура получается очень долгой.
Во-первых, очень долго - это сколько? В минутах или часах.
Во-вторых, какая сейчас скорость чтения с массива? Сделай
tar cf /path/to/tmpfs/tmp.tar /path/to/data
В-третьих, если тебе нужна именно производительность, есть вариант разобрать массив, раскидать картинки по 5 дискам вручную (смонтировав их по 5 путям) и организовать в твоей программе параллельное их чтение с разных дисков - это будет быстрее даже чем raid0, особенно на маленьких файлах, поскольку отдельные диски смогут независимо друг от друга ездить головками, а на это уходит очень много времени. (соответственно на ssd разницы с raid0 уже скорее всего не будет почти)
(обучается на другой машине),
Оно ещё и по сети примонтировано? Там нет узкого места?
Исправление firkax, :
Есть операция по сборке датасета для обучения НС (обучается на другой машине), где прочитывается около 9 ТБ картинок. Хотя на выходе получается не больше 250 - 300 ГБ, но процедура получается очень долгой.
Во-первых, очень долго - это сколько? В минутах или часах.
Во-вторых, какая сейчас скорость чтения с массива? Сделай
tar cf /path/to/tmpfs/tmp.tar /path/to/data
В-третьих, если тебе нужна именно производительность, есть вариант разобрать массив, раскидать картинки по 5 дискам вручную (смонтировав их по 5 путям) и организовать в твоей программе параллельное их чтение с разных дисков - это будет быстрее даже чем raid0, особенно на маленьких файлах, поскольку отдельные диски смогут независимо друг от друга ездить головками, а на это уходит очень много времени.
(обучается на другой машине),
Оно ещё и по сети примонтировано? Там нет узкого места?
Исходная версия firkax, :
Есть операция по сборке датасета для обучения НС (обучается на другой машине), где прочитывается около 9 ТБ картинок. Хотя на выходе получается не больше 250 - 300 ГБ, но процедура получается очень долгой.
Во-первых, очень долго - это сколько? В минутах или часах.
Во-вторых, какая сейчас скорость чтения с массива? Сделай
tar cf /path/to/tmpfs/tmp.tar /path/to/data
В-третьих, если тебе нужна именно производительность, есть вариант разобрать массив, раскидать картинки по 5 дискам вручную (смонтировав их по 5 путям) и организовать в твоей программе параллельное их чтение с разных дисков - это будет быстрее даже чем raid0, особенно на маленьких файлах, поскольку отдельные диски смогут независимо друг от друга ездить головками, а на это уходит очень много времени.