Предположим, у нас есть много статистических данных. Например, время отклика нагруженного сервиса для множества запросов. Мы хотим их как-то обработать: посчитать перцентили, понять, есть ли выбросы и т.д. То есть просто матожидания и дисперсии недостаточно.
При этом:
- Данные не влезают в память (и, к примеру, хадуп тоже не из чего построить)
- Данные легко могут иметь разброс на порядки
У меня нарисовался велосипед, который выдает правдоподобные квантили, не имея всех данных в памяти. При этом, однако, теряется точность. Грубо говоря, в результатах будет фиксированная (заранее заданная) относительная погрешность.
Но при анализе производительности это как будто и не страшно. В крайнем случае, можно прогнать ещё раз данные, вырезать интересный интервал и получить для него более детальную картину.
Возникает вопрос - а есть ли подобные (вероятно, лучшие) решения вообще-то? Гугл по «statistical approximate algorithm large data» выдает море информации, по понять что из этого то, а что нет, я не смог.
Поиск осложняется тем, что матстатистику я не знаю, что знал всё забыл.