LINUX.ORG.RU

Скачать 30 GB файлов с VPS, максимально быстро, желат. многопоточно - чем можно?

 , , , ,


0

1

На vps лежат 10 файлов по 3 ГБ.

Данные такие что крайне плохо сжимаются. Данные особой ценности не представляют- можно качать «не шифруя». Каналы у vps и у меня быстрые, но данные будут часто обновляться , их часто придется скачивать и быстро анализировать - поэтому важна каждая выигранная минута

Чем такое лучше сделать?

syncthing - демон, висит в памяти, отслеживает команды записи через inotify и сразу же перечитывает файл, отправляя изменения подключенным пирам. передача подтверждается хешом, потерь не будет. плюс диф.изменения, плюс пиринговая система и т.д.

считай rsync на стероидах.

pfg ★★★★★
()
Последнее исправление: pfg (всего исправлений: 1)

Каждая минута - это фигня. Может даже тормозной syncthing справится.

Файлы обновляются целиком или частично? Может больше подлйдут распределенные блочные устройства и кластерная обвязка.

boowai ★★★★
()
Последнее исправление: boowai (всего исправлений: 1)
Ответ на: комментарий от pfg

никаких небольших «изменений» в файлах в моем случае не будет, будет полное обновление. да и демон не нужен- не стоит задача всегда иметь локально файлы синхронизированные с vps. понадобилось - дернул руками. то есть запустил команду

lavochnik7
() автор топика
Ответ на: комментарий от boowai

Файлы обновляются целиком или частично? Это csv файлы с большим количеством по сути случайных (сжимаются очень плохо) данных. то есть да, обновляются целиком кластер для таких объемов это оверкилл мне кажется. нет задачи иметь синхронизированную копию файлов с vps, есть задача «аналитику ставят задачу - он дернул файлы и проанализировал»

«Может больше подлйдут распределенные блочные устройства и кластерная обвязка.»

lavochnik7
() автор топика
Ответ на: комментарий от lavochnik7

А данные в один проход используются? Если да, то можно опубликовать с vps через nfs или iscsi. Иначе наоборот. На целевом опубликовать пустое место, а со стороны vps протолкнуть. Обвязку можно сделать на скриптах с ssh. Но во втором случае нужно ждать, пока не закончится или отслеживать прогресс.

boowai ★★★★
()
Последнее исправление: boowai (всего исправлений: 3)
Ответ на: комментарий от lavochnik7

Если рисковый, то можно через netcat гнать. Но наверняка есть потоковые библиотеки надежнее.

Это csv плохо сжимается? Обычно там кодирование ее сложней base64 в полях, а это 75%.

boowai ★★★★
()
Последнее исправление: boowai (всего исправлений: 1)
Ответ на: комментарий от lavochnik7

демон не мешает. висит себе в фоне и проц не грузит, пока файл не обновится. один раз включил и все.
as you wish master :)

pfg ★★★★★
()
Последнее исправление: pfg (всего исправлений: 1)

если не нравится rsync то есть unison

bhfq ★★★★★
()

Данные особой ценности не представляют- можно качать «не шифруя».

uftp. UDP, без шифрования, даже скорость по умолчанию вручную выбирается. Если нет потерь пакетов, а скорость выбрана оптимально, перегнать его будет очень трудно.

Многопоточность не поможет: скорее упрётесь в пропускную способность канала VPS. Она только помогала в прошлом, когда было модно искусственно ограничивать скорость одной загрузки, но можно было запустить их много.

anonymous
()
Ответ на: комментарий от lavochnik7

будет полное обновление

Интересно, сервер будет держать файл старым качальщикам (пока они не переподключатся, конечно) или разорвет соединение? В линуксе файл физически не удаляется, пока его используют.
Например, если слушать онлайн радио и скорость просядет, у тебя будет сдвиг по времени. То есть, сервер буферизует у себя отставание, чтобы у тебя не было разрывов. Но скорее всего этот буфер не бесконечен.

artenaki
()
Ответ на: комментарий от artenaki

Или бывает так, что ссылка с файлобменника протухает, но пока соединение держится, ты продолжаешь качать.

artenaki
()

когда безопасность неважна делаю так netcat

destination:

nc -l 4000 | pv | tar -xpf -

source из директории, где файлы:

tar -cf - * | pv | nc ip_destination 4000

получается шустро

Bajenko
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.