LINUX.ORG.RU

Pandas VS sql для аналитики сайта?

 , , ,


0

1

Друзья, такой вопрос. В рамках веб приложений, когда все данные хранятся в базе данных, например в postgresql. Какой будет шибко профит от питоновской библиотеки pandas, если sql тож могет в аналитику данных пользователей? Как часто вы применяли в своих веб проектах pandas?



Последнее исправление: NetSurf (всего исправлений: 1)

Pandas не для продакшона. Pandas вообще не для программистов, а для «дата сайентистов», у которых только вчера указательный палец от мышки оторвался.

anonymous
()

Смотря какая аналитика. Можно и на стороне сервака делать расчеты с помощью CTE и Window-функций. Панду не юзал, ибо не перевариваю это дерьмо пайтоновское. Для расчетов подойдут Julia и R.

FilosofeM ★★
()

Емнип, в Sql нет матстатистики и матмоделей.

Shadow ★★★★★
()

Если хочется питон, то лучше использовать numpy/scipy/statsmodels, чем pandas. Последний более корявый (в духе абсолютно обязательных индексов, которые больше мешают) и очень жручий до памяти (в отличие от numpy/scipy копирует данные в большинстве случаев; перевод софтины с pandas+HDF5 на прямую работу с h5py и структурными массивами numpy уменьшил жор памяти с 20 ГБ до 2 ГБ, делайте выводы).

lu4nik ★★★
()

на малых данных профита не будет, на больших - твой postgresql раком ляжет - используй pandas, на очень больших - используй clickhouse

Jopich1
()
Ответ на: комментарий от Jopich1

твой postgresql раком ляжет - используй pandas

Это зависит от конкретной аналитики (запросто может быть и наоборот).

Проблема с любой базой данных для этой задачи в том, что физическая оптимизация, подходящая для OLTP, обычно противоречит той, которая нужна для аналитики.

anonymous
()
4 сентября 2018 г.
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.