Mapper, reducer на Python

0

0

Всем привет! Только начал разбираться в питоне, больше в приложении к Hadoop. Есть тестовое задание, на реализации кода которого я пока просто ухожу в аут, хотя задание явно простое. Если есть желающие, подскажите реализацию? (питон 2)

P.S.> какие-то баллы за задание или еще какие-то бенефиты меня не интересуют, всё только чтобы понять реализацию

Есть файл csv c записями вида Пользователь,Исполнитель,Число прослушиваний,Число пропусков:

userId,artistId,plays,skips
0,336,1,0
0,718,1,0
0,730,2,1
0,816,1,1

Вам необходимо проделать следующее:

Оставьте в данных только тех пользователей, для которых сумма plays строго больше 1000. Сколько таких пользователей?

т.е. должно быть построковое считывание файла, группировка <ключ(в данном случае userid), plays> Затем подать этот промежуточный результат на второй скрипт (reducer), который по ключу userid просуммирует plays

Примеры гугляться с wordcount, но из него я не вывез переделку)

Ссылка

←	Вопрос про #define

Как подать массив в матлабе?

→

питон 2

No way

т.е. должно быть

Если совсем в лоб, то:

читай по строкам, пихай всё в dict, с ключами userId, суммируя по ходу plays
потом отфильтруй ключи по условию plays > 1000
и ещё один цикл по входному файлу, построчное чтение, проверка что userId присутствует в фильтре и запись удовлетворяющих строк в выходной файл

А так, наверное pandas умеет это всё красивее.

Через map, reduce, filter это тоже всё делается красиво, но для «Только начал разбираться в питоне» будет не так просто как «в лоб».

vvn_black ★★★★★
(15.12.21 21:29:08 MSK)
Последнее исправление: vvn_black 15.12.21 21:36:49 MSK (всего исправлений: 2)

Ответ на: комментарий от vvn_black 15.12.21 21:29:08 MSK

No way

Через Zeppelin такая вот фигня

Через map, reduce, filter

спасибо, буду копать

WanderVanger
(15.12.21 21:40:34 MSK) автор топика

Ссылка

plays = {}
for l in open('file.csv'):
  try: l = map(int, l.split(',')) # в py3 так уже не взлетит, оптимизаторы херовы;-(
  except: pass
  plays.setdefault(l[0], [0])[0] += l[2]
plays = dict(filter(lambda x: x[1][0]>1000, plays.items()))
print len(plays) # число юзеров

Питон2 почти во всем лучше питон3. Его главный недостаток - его перестают включать в современные дистрибутивы. Потому что типа немодно и немолодежно.

~~AntonI~~ ★★★★★
(16.12.21 10:48:11 MSK)
Последнее исправление: AntonI 16.12.21 10:49:24 MSK (всего исправлений: 1)

Ответ на: комментарий от AntonI 16.12.21 10:48:11 MSK

Есть файл csv c записями вида

python 2

map(int, l.split(‘,’))

Что будет, если в csv миллион записей?

vvn_black ★★★★★
(16.12.21 11:03:49 MSK)

Ответ на: комментарий от AntonI 16.12.21 10:48:11 MSK

map(int, l.split(‘,’)) # в py3 так уже не взлетит, оптимизаторы херовы;-(

import csv

mx__ ★★★★★
(16.12.21 11:10:16 MSK)

Ссылка

Ответ на: комментарий от AntonI 16.12.21 10:48:11 MSK

Питон2 почти во всем лучше питон3. Его главный недостаток - его перестают включать в современные дистрибутивы. Потому что типа немодно и немолодежно.

map(int, l.split(',')) в третьем питоне записывается как:

[int(i) for i in l.split(',')]

или

functools.map(int, l.split(','))

В чём горе-то заключается?

Python 3 объективно лучше Python 2, по почти всем параметрам. И портировать код не так уж сложно, большая часть кода вообще без изменений одинаково работает. Перевёл несколько больших проектов с Py2 на Py3 за последние 4 года, ни разу это не вызвало затруднений.

~~emorozov~~ ☆
(16.12.21 11:15:41 MSK)

Ответ на: комментарий от emorozov 16.12.21 11:15:41 MSK

в третьем питоне записывается как: [int(i) for i in l.split(‘,’)]

или

[*map(), ]

или

list(map())

vvn_black ★★★★★
(16.12.21 11:23:09 MSK)
Последнее исправление: vvn_black 16.12.21 11:24:27 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от vvn_black 16.12.21 11:03:49 MSK

В одной строке csv? Ну-ну.

~~AntonI~~ ★★★★★
(16.12.21 12:58:06 MSK)

Ссылка

Ответ на: комментарий от emorozov 16.12.21 11:15:41 MSK

Python 3 объективно лучше Python 2, по почти всем параметрам

В своих задачах я не вижу ни одного, кроме мб юникода. Да и то, появление bytes как отдельного типа это нивелирует полностью.

Если в Ваших задачах не так - рад за Вас.

Про 2to3 обсуждали 100500 раз, лень повторяться. Простота зависит от проекта.

~~AntonI~~ ★★★★★
(16.12.21 13:03:06 MSK)

Ответ на: комментарий от AntonI 16.12.21 13:03:06 MSK

В своих задачах я не вижу ни одного

Специально не сравнивал, но из важных вещей, что ещё вижу я:

аннотации типов (помогают отлавливать ошибки, которые сложно обнаружить тестами, и получающийся код лучше документирован, понятнее)
встроенная отладка утечек памяти (раза четыре в жизни приходилось отлаживать утечки памяти в Python 2, и это было кошмарно сложно, новые возможности ещё не использовал, но выглядят полезными)
async/await

И это прямо сразу, из головы, специально не задумываясь. Если посидеть и подумать, наверняка, больше вспомнилось бы.

А так, у каждого свои задачи, конечно.

~~emorozov~~ ☆
(16.12.21 13:32:22 MSK)

Ответ на: комментарий от emorozov 16.12.21 13:32:22 MSK

Там где нужны аннотации и пр. я пользую плюсы:-) Да и в общем типизация и в пай2 через декораторы нормально прикручивалась.

А вот проверять глазками овер 500 операций деления по кодовой базе py2 при переходе на py3 мне все еще не хоцца. Самое обидное, что ни одну из серьезных родовых травм питона при сломе обратной совместимости так и не вылечили…

~~AntonI~~ ★★★★★
(16.12.21 14:42:29 MSK)
Последнее исправление: AntonI 16.12.21 14:43:39 MSK (всего исправлений: 1)

Ссылка

Есть тестовое задание

Может, не стоит тогда пытаться идти туда, где даже тестовое задание не можете осилить? Плюс займете место того, кто с этим справится.

cdshines ★★★★★
(16.12.21 17:41:00 MSK)

Ссылка

Ответ на: комментарий от AntonI 16.12.21 10:48:11 MSK

Питон2 почти во всем лучше питон3

Нет, не так. Питон2 почти во всём то же самое, что и Питон3. Но на третью версию ~~стоит~~ стоило переходить даже только из-за человеческой работы с текстом и кодировками. f-строки — тоже топчик.

fun = lambda s,x: bytes(b+x for b in s.encode()).decode('koi8-r')
print(f"{fun('string', 0b_0110_0000) = }")

fun('string', 0b_0110_0000) = 'стринг'

Потому что типа немодно и немолодежно.

Нет. Потому, что поддерживать две ветки всю жизнь никто не собирается.

anonymous
(16.12.21 18:39:23 MSK)

Ссылка

Ответ на: комментарий от AntonI 16.12.21 10:48:11 MSK

Спасибо, очень изящное решение!

plays.setdefault(l[0], [0])[0] += l[2]

unsupported operand type(s) for +=: ‘int’ and ‘str’

я так понимаю, из-за разных типов переменных нельзя слепить их вместе

WanderVanger
(16.12.21 22:39:02 MSK) автор топика

Ответ на: комментарий от AntonI 16.12.21 10:48:11 MSK

l.split(',')

Сломается, если в содержимом поля есть ,.
Не учитывает кавычки.

i-rinat ★★★★★
(16.12.21 22:46:37 MSK)

Ответ на: комментарий от WanderVanger 16.12.21 22:39:02 MSK

File «mapper.py», line 13, in plays.setdefault(l[0], [0])[0] += l[2] IndexError: string index out of range

WanderVanger
(17.12.21 00:35:01 MSK) автор топика

Ответ на: комментарий от WanderVanger 17.12.21 00:35:01 MSK

Скрипт и файл с данными покажите.

~~AntonI~~ ★★★★★
(17.12.21 06:16:07 MSK)


file = 'plays.csv'

cols = open(file).readline().strip()

sql = '''echo '
.mode csv
.import %s Plays

SELECT %s FROM Plays
JOIN (
    SELECT userId AS uid,sum(plays) AS total_plays
    FROM Plays GROUP BY uid
) ON userId=uid WHERE total_plays > 1000
' | sqlite3
''' % (file, cols)

print(cols); __import__('os').system(sql)

anonymous
(17.12.21 10:45:34 MSK)

Ссылка

Для задачи map reduce не нужен. Все делается с помощью pandas.
Если не влезает в pandas или надо по ядрам распараллелить, есть надстройка над пандасом с map reduce - dask
А сабж imho в job.

Shadow ★★★★★
(17.12.21 19:20:46 MSK)
Последнее исправление: Shadow 17.12.21 19:24:26 MSK (всего исправлений: 1)

Ответ на: комментарий от vvn_black 16.12.21 11:03:49 MSK

тогда задачу будет решать как минимум миддл, потоком, не грузя все в память.

deep-purple ★★★★★
(17.12.21 19:25:29 MSK)

Ответ на: комментарий от i-rinat 16.12.21 22:46:37 MSK

))

deep-purple ★★★★★
(17.12.21 19:27:30 MSK)

Ссылка

Ответ на: комментарий от AntonI 17.12.21 06:16:07 MSK

https://wetransfer.com/downloads/ccb562712c31bc96d9f506fa19c9533420211218121215/a24ebd65607ab7cda14454fe2a436d6120211218121338/c8fade

WanderVanger
(18.12.21 15:19:41 MSK) автор топика

Ответ на: комментарий от WanderVanger 18.12.21 15:19:41 MSK

WTF?

У меня не грузится.

Выложите прям сюда скрипт и короткий пример входных данных (строчек 10)

~~AntonI~~ ★★★★★
(18.12.21 19:15:25 MSK)
Последнее исправление: AntonI 18.12.21 19:16:11 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Shadow 17.12.21 19:20:46 MSK

Я думаю это зимняя сессия настала.

peregrine ★★★★★
(18.12.21 19:35:07 MSK)

Ответ на: комментарий от peregrine 18.12.21 19:35:07 MSK

Да, я со студиозусов нынешних ору. Студенты бауманки ищут репетитора по С (!!!) - книжки нынче читать немодно и немолодежно.

Третий курс ВМК МГУ не владеет адресной арифметикой.

Второй курс бауманки не асилил комплексных чисел.

Этот список можно продолжать… че в заборостроительных техникумах с гордым именем академия-чего-то-там твориться лучше вообще не рассказывать.

~~AntonI~~ ★★★★★
(18.12.21 21:23:58 MSK)

Ответ на: комментарий от peregrine 18.12.21 19:35:07 MSK

Я не понимаю, почему эти люди потом пррграммерами работают

Shadow ★★★★★
(18.12.21 23:14:22 MSK)

Ссылка

Ответ на: комментарий от deep-purple 17.12.21 19:25:29 MSK

как минимум миддл, потоком

я менеджер и немного датасатанист.
Зачем csv потоком? Чанками же. Это же таблицы! Они 50 лет чанками обрабатываются.
Ну и любимое:

import dask.dataframe as dd
ddf = dd.read_csv(filename)

- в ddf объект из автоматически оптимизированных по размеру массивов pandas датафреймов, с ленивыми вычислениями и невидимым map-reduce.

Shadow ★★★★★
(18.12.21 23:22:37 MSK)
Последнее исправление: Shadow 18.12.21 23:23:47 MSK (всего исправлений: 1)

Ответ на: комментарий от deep-purple 17.12.21 19:25:29 MSK

Какой там мидл, нормальный стажёр справится с чанковой загрузкой. Там ничего особо сложного нету.

peregrine ★★★★★
(19.12.21 06:35:49 MSK)

Ответ на: комментарий от AntonI 18.12.21 21:23:58 MSK

Да, я со студиозусов нынешних ору. Студенты бауманки ищут репетитора по С (!!!) - книжки нынче читать немодно и немолодежно.

По си нужен репетитор? Я понимаю там C++, сложно может быть - ехала абстракция на шаблоне и паттерном погоняла, но чем репетитор то поможет? Надо брать, читать книжку и смотреть на гитхабе как люди нормальные делают.

Третий курс ВМК МГУ не владеет адресной арифметикой.

Это замечательно, не надо с адресной арифметикой джунов выпускать. Потом такое пишется, что смотреть страшно.

Второй курс бауманки не асилил комплексных чисел.

В смысле не осилил? Там осиливать то только i=sqrt(-1) и то что решений у уравнений больше чем в школе учили (ну и элементарные арифметические действия с ними + тригонометрическое представление). Или им надо что-то более жесткое, вроде формулы Муавра? Ну а если они не осилили что-то с комплексными числами, вроде рассчёта электрических цепей или поля с математики, то это уже они физику или матан не осилили.

peregrine ★★★★★
(19.12.21 06:47:54 MSK)

Ответ на: комментарий от peregrine 19.12.21 06:47:54 MSK

В смысле не осилил?

В прямом

~~AntonI~~ ★★★★★
(19.12.21 13:49:12 MSK)

Ответ на: комментарий от AntonI 19.12.21 13:49:12 MSK

Не зазнавайся, ты тоже много чего не осилил.

anonymous
(19.12.21 15:02:18 MSK)

Ссылка

Ответ на: комментарий от peregrine 19.12.21 06:35:49 MSK

ага )) до первого кривого цсв...

deep-purple ★★★★★
(19.12.21 20:55:23 MSK)

Ответ на: комментарий от Shadow 18.12.21 23:22:37 MSK

ну ты же читаемый поток данных в огрниченый по размеру буфер кладешь - вот и чанки

deep-purple ★★★★★
(19.12.21 20:56:42 MSK)

Ссылка

Ответ на: комментарий от Shadow 17.12.21 19:20:46 MSK

Лорчую адеквата

manntes-live ★★★
(19.12.21 21:48:35 MSK)

Ссылка

Выкинь hadoop нафиг, он такие древние пакеты внутри себя в зависимостях тащит, что секьюрити сканеры плачут от боли. Ну и как тебе выше посоветовали, хоть пандусом решай. Он очень крут для табличной обработки данных.

manntes-live ★★★
(19.12.21 21:54:00 MSK)

Ссылка

Ответ на: комментарий от deep-purple 19.12.21 20:55:23 MSK

С сильно кривым csv ты ничего не сделаешь даже будь ты трижды сеньор. Если csv хоть как-то соответствует спецификации, то всё будет нормально, а если пол файла csv, пол файла json, а половина файла война и мир в виде fb2 с картинками в base64, то ничего не поможет.

peregrine ★★★★★
(19.12.21 21:56:09 MSK)

Ответ на: комментарий от Shadow 18.12.21 23:22:37 MSK

Ну вот ты значит и есть тот самый джун про которого deep-purple говорит. Потому что пандасом чанками csv обрабатывают совсем не так)

https://github.com/pandas-dev/pandas/pull/38225

Иначе будет у тебя memory error когда csv будет побольше чем оперативки в пекиче. Потому что память выделится правильно жирно, а потом тебе ещё потребуется сверху память для обработки.

peregrine ★★★★★
(19.12.21 22:02:13 MSK)
Последнее исправление: peregrine 19.12.21 22:05:06 MSK (всего исправлений: 2)

Ответ на: комментарий от peregrine 19.12.21 22:02:13 MSK

Иначе будет у тебя memory error когда csv будет побольше чем оперативки в пекиче

Здесь нет никакой ~~ложки~~ pandas. Смотри, я читаю csv dask'ом: он создаёт ленивый объект, который для юзера выглядит как массив датафреймов pandas, а сам «автомагически» делает им map-reduce, в том числе проверяя доступный RAM и количество ядер для обработки.

Shadow ★★★★★
(19.12.21 23:15:45 MSK)

Ответ на: комментарий от AntonI 19.12.21 13:49:12 MSK

В прямом

Норот требует самых вкусных подробностей!

thunar ★★★★★
(20.12.21 01:24:33 MSK)
Последнее исправление: thunar 20.12.21 01:24:43 MSK (всего исправлений: 1)

Ответ на: комментарий от AntonI 16.12.21 10:48:11 MSK

Питон2 почти во всем лучше питон3.

ОМГ

замени unicode на string

~~Jopich1~~ ☆
(20.12.21 01:35:58 MSK)

Ссылка

Ответ на: комментарий от Shadow 19.12.21 23:15:45 MSK

Тьфу, в глаза долблюсь и пандас везде вижу, сорри

peregrine ★★★★★
(20.12.21 04:23:13 MSK)

Ссылка

Ответ на: комментарий от thunar 20.12.21 01:24:33 MSK

Угораздило читать там спецкурс. Для спецкурса нужны были оду и комплексные числа. - А у нас не было таких чисел! - говорит аудитория. Ок, объясняю, посмотрите еще грю хоть в вики хоть где, рассказываю еще че то, в конце пятиминутка - почти никто комплексные числа не понял.

Второе занятие, ай-яй говорю, объясняю второй раз, еще че то рассказываю, в конце пятиминутка - почти никто комплексные числа не понял.

На третьем занятии говорю - ребята, у нас будет зачет. И зачёт будет начинаться с того, что каждый сев ко мне отвечать сначал при мне сходу решает один пример на комплексные числа и одно оду. Решил - говорим дальше, не решил - пересдача.

Там такой стон по аудитории пронесся, аж сердце сжалось… После этого они зашевелились хоть как то.

~~AntonI~~ ★★★★★
(20.12.21 08:53:37 MSK)

Ссылка

Ответ на: комментарий от peregrine 19.12.21 21:56:09 MSK

С сильно кривым csv ты ничего не сделаешь даже будь ты трижды сеньор

Ну вот, ты даже задачу решать не начал, а уже руки опустил. Тем не менее, уже согласен с тем, что задача эта совсем не простая.

то ничего не поможет

Нормальный парсер, учитывающий все кейсы и состояния — поможет. Но его же написать надо, да?

deep-purple ★★★★★
(20.12.21 13:00:21 MSK)

Ответ на: комментарий от deep-purple 20.12.21 13:00:21 MSK

Нормальный парсер, учитывающий все кейсы и состояния — поможет. Но его же написать надо, да?

csv парсер в питоне (который родной и встроенный в стандартную библиотеку) норм или нет? Ну и да, не такой уж он и сложный, хотя да, если с нуля писать, то наверное с джуном я погорячился.

https://hg.python.org/cpython/file/tip/Modules/_csv.c

https://github.com/python/cpython/blob/main/Lib/csv.py

peregrine ★★★★★
(20.12.21 19:18:19 MSK)

Ответ на: комментарий от peregrine 20.12.21 19:18:19 MSK

csv парсер в питоне (который родной и встроенный в стандартную библиотеку) норм или нет?

Не знаю. В отрыве конкретно от питона, но:

Лет 10 назад, в одной фирме где я работал, в b2b систему была добавлена возможность импорта csv.

Блондинки начали загружать туда всякий треш с битыми кодировками, нестандартными сепараторами и отсутствием экранирования. В поисках адекватного варианта, парсеры менялись как перчатки, но они не справлялись с детектированием всего этого дерьма и молча пропускали невалид дальше, что влекло за собой, в худшем случае, засирание базы кривыми данными.

Довольно быстро стало ясно, что проще будет написать свой с нуля. Только так проблемы и закончились.

Почему же авторы перепробованых нами парсеров не удосужились нормально продумать и протестировать свои поделки? Хороший вопрос. Джуны, что-ли? Ведь из каждого утюга говорится: нельзя доверять данным, получаемым извне.

Добавлю, что, уже достаточное количество раз, при трудоустройстве, получив тестовое задание «от силы на пару дней», я с такими сроками был категорически не согласен, ибо куча не уточнённых моментов, нюансов использования и отсюда во много раз разросшиеся сроки реализации. У нас происходил разговор, примерно похожий на нынешний «про парсер» и работодатель сливался. Ну а то! Кому-то я там в каждый из разов ЧСВ наждачкой неплохо так почёсывал.

deep-purple ★★★★★
(21.12.21 06:44:45 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Вопрос про #define

Development

Как подать массив в матлабе?

→

Похожие темы