Есть данные - миллиард строк в utf-8, для начала. Потенциально - 5-10 миллиардов. Простые строки.
Есть задача - быстро выбирать по этим данным. Желательно с любыми условиями, вплоть до регулярок.
grep/fgrep не подошли из-за скорости.
Начал пробовать elasticsearch, который на лоре как раз используют. Сначала радовал шустростью, но на импорте где-то 150кк записи начал адово тормозить. Но на тех данных, что он смог импортировать - скорость радует.
Может я куда-то не туда копаю и есть более очевидное решение этой задачи?
Вопрос 2 (очень важный): если я в elasticsearch залью все подряд данные с автогенерируемым _id, как я могу потом почистить базу от неуникальных значений?
P.S. Бонус - если рекомендуемое вами решение позволит контролировать уникальность строк (мне это крайне необходимо), то будет вобще супер. Сейчас приходится кормить elasticsearch данные в виде _id = string, видимо поэтому он так сильно тормозит.