LINUX.ORG.RU

Сообщения WanderVanger

 

Mapper, reducer на Python

Форум — Development

Всем привет! Только начал разбираться в питоне, больше в приложении к Hadoop. Есть тестовое задание, на реализации кода которого я пока просто ухожу в аут, хотя задание явно простое. Если есть желающие, подскажите реализацию? (питон 2)

P.S.> какие-то баллы за задание или еще какие-то бенефиты меня не интересуют, всё только чтобы понять реализацию

Есть файл csv c записями вида Пользователь,Исполнитель,Число прослушиваний,Число пропусков:

userId,artistId,plays,skips
0,336,1,0
0,718,1,0
0,730,2,1
0,816,1,1

Вам необходимо проделать следующее:

  1. Оставьте в данных только тех пользователей, для которых сумма plays строго больше 1000. Сколько таких пользователей?

т.е. должно быть построковое считывание файла, группировка <ключ(в данном случае userid), plays> Затем подать этот промежуточный результат на второй скрипт (reducer), который по ключу userid просуммирует plays

Примеры гугляться с wordcount, но из него я не вывез переделку)

 

WanderVanger
()

RSS подписка на новые темы