Есть список где-то с сотню слов (может вырастет еще), нужно как-то суметь не просто проверить, а очень быстро проверить есть ли они в файле и если есть, то сколько (статистика). Не требуется узнавать их местоположение. Файлы могут быть в разных кодировках. UTF-8, UTF-16, cp1251, может быть и еще какие-то. В идеале бы не тратить время на конвертацию, а как-то так без нее проверять на лету. Ограничений по расходу памяти в разумных пределах нет. Файлы где-то вряд ли больше 10Мб, скорее всего меньше намного.
Прежде чем начать велосипедить хочется узнать, может есть где-то (полу)готовые такие алгоритмы?