Всем привет! Только начал разбираться в питоне, больше в приложении к Hadoop. Есть тестовое задание, на реализации кода которого я пока просто ухожу в аут, хотя задание явно простое. Если есть желающие, подскажите реализацию? (питон 2)
P.S.> какие-то баллы за задание или еще какие-то бенефиты меня не интересуют, всё только чтобы понять реализацию
Есть файл csv c записями вида Пользователь,Исполнитель,Число прослушиваний,Число пропусков
:
userId,artistId,plays,skips
0,336,1,0
0,718,1,0
0,730,2,1
0,816,1,1
Вам необходимо проделать следующее:
- Оставьте в данных только тех пользователей, для которых сумма plays строго больше 1000. Сколько таких пользователей?
т.е. должно быть построковое считывание файла, группировка <ключ(в данном случае userid), plays> Затем подать этот промежуточный результат на второй скрипт (reducer), который по ключу userid просуммирует plays
Примеры гугляться с wordcount, но из него я не вывез переделку)