Есть вычислительный кластер, состоит из трех блейд-корзин по 20 узлов. Есть проблема - иногда узлы бывает надо тушить, а задачи пользователей, которые считаются на кластере, завершать нехорошо. Подумалось вдруг - можно ли организовать вычислительный кластер на виртуальной платформе, например, vSphere, и использовать vMotion для переноса виртуальных вычислительных узлов с одних блейдов на другие с целью освобождения узлов, которые нужно вывести из эксплуатации?
Есть проблема: кластер использует распределенное lustre-хранилище, и lustre-трафик у нас ходит через InfiniBand. В vSphere, насколько я знаю, нет нативной поддержки InfiniBand, поэтому использовать данный интерконнект в виртуальной машине можно только при помощи PassThrough, а с ним не работает vMotion.
Возникает вопрос: можно ли гонять lustre-трафик по, скажем, десятигигабитной ethernet-сети, насколько это будет менее эффективно для средних задач, чем гонять его через IB?
И вообще, насколько эффективным был бы вычислительный кластер в виртуальной среде?
P. S. Не надо мне напоминать, сколько стоят лицензии на vSphere, я про это уже думал, и вопрос скорее теоретический :)
infiniband, lustre, vmware