LINUX.ORG.RU

Hadoop


9

0

Всего сообщений: 12

Первая встреча HadoopKitchen

Группа Конференции и встречи

27 сентября в московском офисе Mail.Ru Group (Ленинградский проспект 39, строение 79) состоится первая встреча HadoopKitchen.

Программа мероприятия:

  • 11:00 Регистрация.
  • 12:00 Алексей Филановский (Cloudera Certified Developer for Apache Hadoop, старший консультант отдела продаж, Oracle) выступит с обзором новых возможностей Hadoop v2, будут разобраны случаи их применения и ряд практических примеров.
  • 13:00 Никита Макеев (Data Team lead, IponWeb) расскажет о том, как расширить возможности Hadoop Streaming при работе с современными форматами данных Avro и Parquet.
  • 14:00 Максим Лапань (ведущий программист проекта Поиск, Mail.Ru Group) перейдет от теории к практике: его доклад будет посвящен управлению кластерами Hadoop в Mail.RuGroup. Отдельно Максим остановится на сложностях, с которыми команда столкнулась по мере роста системы.
  • 15:00 Обед.
  • С 15:45 до 17:45 в World Cafe вы получите отличную возможность коллективно выявить, выбрать и исследовать наиболее интересные для вас вопросы эксплуатации Hadoop.
  • В 18:00 слово возьмет Алексей Грищенко (Pivotal Enterprise Architect, EMC Corporation). Он поделится тонкостями архитектурного решения Pivotal HAWQ и расскажет о его взаимодействии с Hadoop.

>>> Подробности

 , ,

ymn
()

Apache Hadoop 2

Группа Кластеры

Apache Software Foundation анонсировал выход Hadoop 2.2, платформы для параллельной обработки больших объемов данных и параллельных вычислений. Версия 2.2 стала первой стабильной версией в семействе 2.x.

Основные новинки Hadoop 2.x:

  • YARN — новая платформа управления задачами и ресурсами кластера, расчитанная на одновременный запуск различных приложения на кластере. Помимо Map-Reduce приложений, ядро теперь поддерживает поточные приложения, приложения баз данных, серверы для выполнения интерактивных запросов и т.п. Подробности о отличии новой архитектуры от 1.x можно прочитать в анонсе в блоге компании Hortonworks.
  • NameNode, центральный индекс узел файловой системы HDFS, обзавелся собственными средствами обеспечения высокой доступности. В прошлых версиях NameNode являлась единой точкой отказа, и для повышения его надежности использовались сторонние решения
  • NameNode теперь может быть разделен на несколько узлов, обслуживающих различные пространства имен
  • HDFS, файловая система Hadoop, теперь так же доступна через NFSv3
  • Поддержка снапшотов HDFS
  • Поддержка шифрования трафика между узлами
  • Различные улучшения производительности

>>> Подробности

 ,

maxcom
()

Cascading 2.0

Группа Кластеры

Cascading — Java-фреймворк, позволяющий быстро и легко разрабатывать приложения для анализа и управления данными — обновился до версии 2.0. Cascading работает на платформе Apache Hadoop 1.0 и может быть развёрнут на различных вычислительных средах.

( Подробнее о Cascading )

Некоторые особенности этого релиза:

  • поддержка Hadoop 1.0.2;
  • поддержка JUnit 4.8.x;
  • исходные коды теперь распространяются на условиях лицензии Apache 2.0 Licensing (до этого была GPLv3);
  • добавлен локальный режим работы, в котором не используются компоненты Hadoop;
  • изменены пакеты для многих внутренних типов для упрощения документации;
  • добавлен новый интерфейс для сбора подробной статистики;
  • многочисленные исправления ошибок;
  • репозиторий проекта переехал на гитхаб.

Новость на nixp.ru

>>> Подробности

 ,

ymn
()

Вышел Hadoop Connector для MongoDB

Группа Кластеры

Представлен релиз Mongo+Hadoop Connector — набор модулей для платформы Hadoop, обеспечивающих подключение к NoSQL базе данных MongoDB. Теперь MongoDB может выступать в качестве источника данных для Hadoop (Map/Reduce и другие компоненты экосистемы Hadoop). Также возможна и обратная операция — запись результатов работы в MongoDB.

На данный момент поддерживаются основные API Hadoop (известные как Hadoop Common). Обеспечена поддержка записи в MongoDB из Pig и Streaming для выполнения Map/Reduce на Python.

Репозиторий проекта на github.

>>> Подробности

 ,

ymn
()

Релиз Apache Mahout 0.6

Группа Кластеры

6 февраля увидел свет релиз Apache Mahout за номером 0.6.

Среди нововведений:

  • Уменьшение времени вычисления скалярного произведения векторов.
  • Поддержка MongoDB и Cassandra DataModel.
  • Исправлены некоторые ошибки и введены некоторые дополнительные улучшения.

Подробный список изменений доступен на сайте Apache Software Foundation.

Apache Mahout представляет собой реализацию большого количества алгоритмов машинного обучения: кластеризацию, классификацию, фильтрацию и т.п. Основные алгоритмы разработаны с применением парадигмы map/reduce и применяются для обработки и анализа больших объемов данных на платформе Hadoop. Apache Mahout выпускается на условиях Apache Software license 2.0.

Напоминаю, что Apache Hadoop — один из перспективных проектов Apache Foundation, который предоставляет собой свободно распространяемый набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.

>>> Подробности

 , , , ,

ymn
()

Apache Hadoop 1.0

Группа Кластеры

Apache Software Foundation анонисировал релиз Hadoop 1.0 - популярной платформы для обработки больших объемов данных.

Apache Hadoop активно используется в Amazon, AOL, Apple, eBay, Facebook, foursquare, HP, LinkedIn, Netflix, The New York Times, Rackspace, Twitter, Yahoo и других компаниях.

Версия 1.0 включает:

  • Поддержку СУБД Hbase - добавлены функции sync и flush, необходимые для поддержки журнала транзакций
  • Аутентификацию на базе Kerberos
  • Webhdfs - простой HTTP REST интерфейс для доступа к распределенной файловой системе Hadoop (HDFS)
  • Различные оптимизации и другие улучшения
  • Все функции Hadoop 0.20.205

>>> Подробности

 , ,

maxcom
()

Apache Hive 0.7

Группа Open Source

Разработчики Apache Hive объявили о выходе новой версии: 0.7. Hive — система для выполнения аналитических запросов над большими объемами данных, постронная на базе Apache Hadoop. Hive предоставляет SQL-подобный язык запросов и хорошо подходит для ad-hoc запросов к большим данным. Подробнее о системе можно узнать из вводного видео.

В этой версии:

  • Поддержка индексов, при помощи которых возможно ускорение группировки, сортировки и объединения таблиц
  • Поддержка авторизации и аутентификации
  • Опциональная модель конкурентного доступа с блокировками, построенная на базе Apache Zookeeper

>>> Подробности

 , , hive

maxcom
()

Архитектура Twitter

Группа Интернет

Подробности о технической реализации и внутренней архитектуре одного из самых быстроразвивающихся интернет-проектов.

Среди используемых технологий:

  • Apache + mod_proxy
  • Ruby on Rails + Unicorn
  • FlockDB + MySQL
  • Cassandra
  • Hadoop

>>> Подробности

 , , flockdb, , , , , , , ,

blinkov
()

Новое поколение MapReduce в Apache Hadoop

Группа Кластеры

В большом бизнесе использование нескольких больших кластеров с финансовой точки зрения более эффективно, чем много маленьких. Чем больше машин в кластере, тем большими наборами данных он может оперировать, больше задач могут выполняться одновременно. Реализация MapReduce в Apache Hadoop столкнулась с потолком масштабируемости на уровне около 4000 машин в кластере. Разрабатывается следующее поколение Apaсhe Hadoop MapReduce, в котором появится общий планировщик ресурсов и отдельный мастер для каждой отдельной задачи, управляющий выполнением программного кода. Так как простой оборудования по техническим причинам обходится дорого на таком масштабе, высокий уровень доступности проектируется с самого начала, равно как и безопасность и многозадачность, необходимые для поддержки одновременного использования большого кластера многими пользователями. Новая архитектура также будет более инновационной, гибкой и эффективной с точки зрения использования вычислительных ресурсов.

>>> Подробности

 , , , , ,

blinkov
()

Apache Hadoop в Yahoo

Группа Кластеры

Eric Baldeschwieler, вице-президент Yahoo по направлению разработки Apache Hadoop, опубликовал историю использования продукта в Yahoo.

В 2006 году Yahoo потребовалась среда для хранения и обработки больших объемов данных. В тот момент у конкурентов уже были собственные реализации map-reduce и кластерного хранилища, и вместо разработки своего проприетарного решения Yahoo приняла решение подключиться к разработке открытого Apache Hadoop.

В настоящий момент около сотни сотрудников компании работают над проектом Apache Hadoop и связанными с ним подпроектами, такими как Pig, ZooKeeper, Hive, Howl, HBase и Oozie. В дата центрах Hadoop запущен на около 40000 узлов (более 300 тысяч процессорных ядер). Hadoop используется в задачах поиска, рекламы, определении спама и др.

>>> Подробности

 , , ,

maxcom
()

Hadoop на Harmony

Группа Java

Guillermo Cabrera из подразделения IBM Emerging Technology объявил об успешном запуске среды распределённых вычислений Hadoop на платформе Apache Harmony. Подобная среда является хорошим стресс-тестом, демонстрирующим стабильность платформы.

Для запуска была выбрана сборка Harmony Select 6 - легковесная версия JVM без поддержки GUI, апплетов и некоторых других технологий.

Работы по подготовке Harmony к запуску Hadoop длились несколько месяцев.

>>> Подробности

 , , , , ,

maxcom
()

Google разрешил использование технологии MapReduce в Apache Hadoop

Группа Кластеры

Компания Google официально делегировала развиваемым под эгидой Apache свободным проектам права по использованию технологий, фигурирующих в патенте 7650331 («Системы и методы эффективной высокомасштабируемой обработки данных»). В патенте изложены принципы реализации метода MapReduce, который активно используется в таких проектах, как Apache Hadoop и Apache MapReduce.

Очередной раз google на деле показал хорошее отношение к проектам с открытым исходным кодом.

Apache Hadoop

Apache Mapreduce

Новость на английском

>>> Подробности

 , , ,

real_maverick
()