Исходные данные: есть база данных - небольшая, около 3 миллионов записей, но в перспективе быстрорастущая. Весьма часто приходится обрабатывать столбцы. Поэтому возник вопрос об инструменте, облегчающем работу именно со столбцами.
При поиске чаще всего встречалось название Apache Arrow. Пробежался по докам - вроде бы то, что надо: работает в Линуксе, венде и макоси, поддерживает много ЯП (C++, Python, Go, Java и др.), понимает CSV-формат и другие (JSON, ORC, Parquet), интересно работает с оперативной памятью (очень экономно) и даже поддерживает memory-map, поддерживает обработку потоковых данных (сейчас для меня это не актуально, но кто знает, как дальше дело пойдёт), поддерживает извлечение данных из нескольких файлов (а вот это важно). Там есть ещё вагон «плюшек» и «батареек», но я пока ограничился просмотром наиболее актуальных.
Вопрос: кто-то работал с этим фреймворком? Какие плюсы и минусы? Есть ли «подводные грабли» при быстром росте объема БД? Насколько удобен API? В общем, всё о личном опыте работы с Apache Arrow.
А может у кого-то найдутся и другие варианты? Welcome.