На работе обрабатываю многогигабайтные датасеты из JSON, XML, CSV.
Пока хватало Python, bash, sed, grep, head, tail, wc, xargs, cut, sort, XML Starlet.
Статистику не считаю, но часто ищу данные, выбираю группы строк из разных файлов по определенным критериям, нормализирую, денормализирую, дедуплицирую.
Если что-то одновременно не разовое, чтобы на bash, и одновременно не часть основного приложения, чтобы на Scala, то пишу на Python, особенно если скрипт нужно дать другим людям погонять.
Станет ли мне легче жить если я попробую с bash+python перейти на R?