LINUX.ORG.RU

apache spark.

 


0

4

Может кто-то в двух словах описать устройство и основную идею Apache Spark? Объяснить в терминах программиста, который бы попытался разработать spark. Типа, описать минимальный spark, который можно написать на коленке. Некая минимальная софтина, которая может быть прообразом spark. И так же на примере объяснить чем это отличается от hadoop.

На что софт тратит время в hadoop, чего не происходит в spark, за счёт чего spark быстрее и на каких задачах, а где всё-таки нельзя им заменить hadoop.



Последнее исправление: hlamotron (всего исправлений: 3)

Не писать на диск на каждый чих.

inb4 спарк - типичный пример того, что получается, когда программы пишут ученые, а не программисты.

cdshines ★★★★★
()

На что софт тратит время в hadoop, чего не происходит в spark

На всякую ерунду. Правда.

за счёт чего spark быстрее и на каких задачах

Качество. Разница заметна при работе с блочным устройством.

telikan
()
2 февраля 2018 г.

спарк способен заоптимизировать выполнение цепочек трансформаций так, чтобы минимзировать сетевой и дисковый оверхед.

например, если этапов трансформаций много, но они не требуют шаффла между нодами, все эти «много» приводятся к одной трансформации внтури ноды.

емнип, хадуп каждый промежуточный выхлоп персистит всегда, поэтому оказывается медленней.

VladimirMalyk ★★★★★
()

Юзали спарк для обработки евентов с рекламного трекера. Чтобы переваривать каких-то 2000 евентов за секунду, спарку понадобилось три железных сервера, загрузка ЦП перманентно на уровне 90%. И процесс разработки превращается в ад. Чтобы протестировать свой код, надо его задеплоить на кластере, сходить попить кофе, пока оно там пять минут раскочегаривается, потом оно упадёт с километровым трейсбеком, в конце которого написано что-нибудь типа «Error: py4j.protocol.Py4JJavaError: An error occurred while handling an error: org.apache.hadoop.Exception: Error.» Обоссаться и не жить. Опомнились, выкинули нахрен спарк, оставили только кафку. ВНЕЗАПНО, теперь на всё хватает одной машины и процессор загружен процентов на 30. Потому что спарк создаёт больше проблем, чем решает. Он жрёт для своих нужд больше ресурсов, чем собственно решаемая задача. Как типичный бюрократ, ёета. Когда его выкидываешь на мороз, внезапно оказывается, что все твои «биг дата» на самом деле спокойно окучивает один скрипт на питоне, а весь этот говноэнтерпрайз нужен только менеджерам для окучивания бюджетов. Не трогай это говно, пока она тебе НА САМОМ ДЕЛЕ не понадобится. А когда понадобится, лучше ищи себе другую работу, я серьёзно.

anonymous
()
Ответ на: комментарий от VladimirMalyk

Кстати, стримы в спарке - особое говно. Там даже нельзя задать максимальный размер батча - спарк, блджад, лучше тебя знает. Особенно весело, когда в кафке накопилось 15000000 сообщений из-за упавшего стрима. Он пытается подняться и давай читать все эти 150000000 сообщений в один RDD. Выкинули нафиг в ужасе и заменили десятью строчками на confluent-kafka-python.

anonymous
()
Ответ на: комментарий от anonymous

хм, никогда не крутил стримы на спарке, только батчи.

не смотрели в сторону apache beam?

VladimirMalyk ★★★★★
()
Ответ на: комментарий от anonymous

Ну вы и наркоманы. Нет стримов в спарке, только маркетинговый буллшит. Нормальные пацаны все на samza\storm делают.

Deleted
()
Ответ на: комментарий от Deleted

samza\storm

«Леса ентерпрайз едишен, секурити енаблед подпорка сустем». Апаче скотомогильник в своём репертаре.

Нахер оно нужно, городить обёртки над обёртками, если можно просто юзать кафку? И от неё бы избавились, как только появится адекватная замена.

anonymous
()
Ответ на: комментарий от anonymous

хех, под какой юзкейс может понадобиться замена кафке?

точнее, что должно уметь альтернативное решение, чтобы выкинуть кафку?

VladimirMalyk ★★★★★
()
Ответ на: комментарий от VladimirMalyk

Не жрат столько памяти, например. Это не считая зукипера, который тоже тонкотой не отличается.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.