Как готовить hadoop 2 в nutch 1.15

0

1

Привет,

Кто может поделиться инсайтами в области настройки hadoop 2.7.4 для nutch 1.15 ?

Оно может час делать фазу reduce после работы Fetcher, работая с контентом 2 млн. страниц, по часу делать фазы Generate и Merge, при том, что в базе всего навсего 30 млн. страниц.

Такая база может спокойно поместиться в оперативку, но hadoop считает иначе, делает кучу отдельных заданий для Mapper.

Это как-то лечится, например, настройками dfs.blocksize и числом потоков для маппера?

Пока придумал, как заменить hadoop наколенной поделкой: база урлов заменяется на файл БД, который сортируется по полю URL чем-то вроде GNU sort, вычисления фазы Merge заменить на GNU join или подобное, ну а Generate - это просто линейный проход по сортированной базе URL. Ожидаю прироста скорости на 2 порядка. При этом, все эти немудреные алгоритмы считаются, как и в hadoop, используя внешнюю память.

Чем же hadoop тогда занимается?

Ссылка

Очевидно, тем, что не влазит в память. При таких маленьких объемах можно взять что угодно. Хадуп слишком велик.

stave ★★★★★
(14.03.20 10:24:35 MSK)

Ответ на: комментарий от stave 14.03.20 10:24:35 MSK

А380 тоже большой, но быстрый как и все.

anonymous
(14.03.20 13:29:06 MSK)

Ответ на: комментарий от anonymous 14.03.20 13:29:06 MSK

Больше аналогий богу аналогий.

stave ★★★★★
(14.03.20 21:28:12 MSK)

Похожие темы