Изучаю hbase. В качестве пример решаю задачу по аггрегации значений в таблице по ключу(аналог group by). Вторая фаза (reduce) проходит очень быстро, и использует все ресурсы. Первая же фаза(map) запускается в одном потоке(проверялось получение имени текущего потока), и работает очень долго. Hbase запускается поверх Hadoop, в режиме pseudo-distributed.
Долго искал возможность настройки количества маперов, но найденные подсказки не помогли:
- Установка mapred.tasktracker.map.tasks.maximum в hbase/conf/hbase-site.xml и/или в hadoop/conf/hdfs-site.xml не повлияла.
- использование api setNumReduceTasks - аналогично не повлияла
Параметры таблицы на которой проводится тестирование:
- ключ : id+timestamp
- значение : double
- количество значений : 43200000(43 миллиона)
- название таблицы - 'spi'
./hadoop fs -ls «hdfs://localhost:9000/hbase/spi»
Found 14 items
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/10bd9f466936f3d6fec18d4198b3335e
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/3c2e8f9f89be020709ce2c6f8c4e451d
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/5ca1e607e0c081bb7295bbe3980aa1a2
drwxr-xr-x - artem supergroup 0 2011-08-14 15:30 /hbase/spi/5f58ef8d755f9f9fcaa6dceabed02226
drwxr-xr-x - artem supergroup 0 2011-08-14 15:30 /hbase/spi/6cd2c97238eee8f4e7077f01345a7ebb
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/78aec9ff2c75934b53732afdbe27c65a
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/7ee9e57aedf0938882082d2e0606c3cb
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/989bc6f730450d540643b86813248d1c
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/99909b39f99ebaa8b84d9d3f9cf718e1
drwxr-xr-x - artem supergroup 0 2011-08-14 15:30 /hbase/spi/c055f4813990bcf59113baa4b3b45aa1
drwxr-xr-x - artem supergroup 0 2011-08-14 15:30 /hbase/spi/ccbb7d2cdbe0f37221bc8a507728fbdf
drwxr-xr-x - artem supergroup 0 2011-08-14 15:02 /hbase/spi/e7ac605ae9c766e602c2ba28691139f2
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/ea96720876a9eb717101a73254a010a8
drwxr-xr-x - artem supergroup 0 2011-08-14 15:18 /hbase/spi/f9038fd18b2d0a4193468456f290c77c
Судя по всему количество частей таблицы не нулевое.
Вопрос : как увеличить количество обработчиков(на map и reduce фазах)?
Версия HBase : hbase-0.90.4, версия hadoop - hadoop-0.20.2