LINUX.ORG.RU

Как готовить hadoop 2 в nutch 1.15

 ,


0

1

Привет,

Кто может поделиться инсайтами в области настройки hadoop 2.7.4 для nutch 1.15 ?

Оно может час делать фазу reduce после работы Fetcher, работая с контентом 2 млн. страниц, по часу делать фазы Generate и Merge, при том, что в базе всего навсего 30 млн. страниц.

Такая база может спокойно поместиться в оперативку, но hadoop считает иначе, делает кучу отдельных заданий для Mapper.

Это как-то лечится, например, настройками dfs.blocksize и числом потоков для маппера?

Пока придумал, как заменить hadoop наколенной поделкой: база урлов заменяется на файл БД, который сортируется по полю URL чем-то вроде GNU sort, вычисления фазы Merge заменить на GNU join или подобное, ну а Generate - это просто линейный проход по сортированной базе URL. Ожидаю прироста скорости на 2 порядка. При этом, все эти немудреные алгоритмы считаются, как и в hadoop, используя внешнюю память.

Чем же hadoop тогда занимается?



Последнее исправление: anymouse (всего исправлений: 1)

Чем же hadoop тогда занимается?

Очевидно, тем, что не влазит в память. При таких маленьких объемах можно взять что угодно. Хадуп слишком велик.

stave ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.