HP ProLiant DL580 G5 4 Quad-Core Intel® Xeon® X7350 Processor (2.93 GHz, 2x4M cache ), т.е. в общей сложности 16 ядер. 128Gb памяти.
Интересует, например, разреженное матрично-векторное умножение. Скажем, матрица порезана в памяти на 16 кусков с примерно одинаковым количеством ненулевых элементов (выделенных (new double[Z]) каждый в своём потоке), вектор порезан аналогично на соответсвующие 16 кусков. Размер матрицы: 10^6 строк, 50*10^6 ненулевых элементов.
Вот получится ли это умножить в 16 раз быстрее, чем на одном ядре? Подозреваю, что нет... Или всего в 4 раза быстрее?
Может кто-то уже пробовал что-то подобное на похожей конфигурации (может с меньшим числом процессоров)?
Заранее спасибо за помощь.