Если кому интересно, то вот рецепт
На большом потоке ( >300мбит/с ) c большим числом протоколов (>20) используется примерно 40% одного ядра Intel(R) Xeon(R) CPU E31230@3.20GHz. Если поток больше или процессор слабее, то включаем RPS или используем сетевые карты с multi-queue и irq-affinity :)
Требуется много памяти. На каждое соединение расходуется примерно 800+264*0.7 байт.
Исходники теперь есть на https://github.com/vel21ripn/nDPI/tree/netfilter