LINUX.ORG.RU

Хочу в аналитику и бигдату. Какой язык и инструменты выбрать?

 , , , ,


2

1

Ах, ЛОР!

Ещё раз: меня интересует не только ЯП, но и библиотеки и БД для конечного использования.

Какой язык программирования, библиотеки (очень важно) и базу данных выбрать для анализа данных, построения графов связей, работы с синтаксисом и морфологией?

Я склоняюсь к получению данных из веб-сервисов при помощи selenium с python-обвязкой (всё-равно тут будет тормозить браузер, а не питон), а яву в хандупе для последующего анализа. Только вот в библиотека проблема, прошу подсказать.

Имеет ли смысл выбрать R?

Также прошу подсказать годные статьи книги по сабжу.

Ответ на: комментарий от ktulhu666

Django, для парсинга я обычно юзаю pyquery. Парсер просто парсит все разделы форума. Авторизацию не юзал.

pi11 ★★★★★
()
Ответ на: комментарий от ktulhu666

Ну это, если ты уверен что у тебя получится - вперед. Потом расскажи только честно, что получилось.

pi11 ★★★★★
()
Ответ на: комментарий от pi11

Парсер просто парсит все разделы форума

Как тогда определяется «последнее сообщение»? Например, если в некротред написали?

ktulhu666 ☆☆☆
() автор топика
Ответ на: комментарий от ktulhu666

Если серьёзно, то: 1) объём данных из сообщения выше - не big data; 2) как следствие, я бы порекомендовал написание велосипедов на более-менее стандартных инструментах. То есть, эдакая «mini big data». На таких объёмах это будет не очень заморочисто, плюс появится ценный опыт мышления и решения задач из этой области; 3) если будут действительно большие объёмы данных, то да, Hadoop, а R или не R - это дело вкуса, в других языках, вроде бы, есть неплохие библиотеки из той же оперы.

Естественно, это всё ИМХО, могу быть неправ.

xenohunter
()
Ответ на: комментарий от ktulhu666

И если начинать с малого, то с чего начать?

С ганглии :)

slackwarrior ★★★★★
()
Ответ на: комментарий от ktulhu666

Там Id есть, но у меня там, емнип, просто последнее сообщение которое бот нашел.

pi11 ★★★★★
()
Последнее исправление: pi11 (всего исправлений: 1)
Ответ на: комментарий от pi11

Ну давайте прикинем: допустим, что на ЛОРе 10 000 000 сообщений итого. Даже если у нас каждое сообщение будет отображаться на отдельной странице (что, конечно же, не так), то с моей самой худшей производительностью (10 страниц в секунд) надо будет около 9,5 часов для выгрузки всего ЛОРа.
10000000/(10*30*3600*24)
С моей лучшей производительностью (около 100 страниц в секунду) около часа.
А если учесть, что сообщения отображаются не на страницу, то даже с худшей производительностью это займёт не более часа.

Я надеюсь, что не надо объяснять, что моё решение поддерживает авторизацию из коробки, защиту (на ЛОРе нет) от ботов из коробки, разработать его крайне просто (даже для самого кривого сайта), поддерживает JS-говно, любые изменения внести крайне просто, большинство изменений HTML-дизайна не приведут к неработоспособности.

P.S. Да, тут надо учесть, что не у всех есть кластер на работе. ;)

ktulhu666 ☆☆☆
() автор топика
Ответ на: комментарий от pi11

Ну ты теоретик просто :-)

Обоснуйте ошибочность моих суждений.

Авторизация кстати за 3 минуты пишется.

CSRF на ЛОРе, если мне память не изменяет, в куке и в POSTe. Но я хз. Во многих случаях, он ещё меняться иногда может (я встречал вариант в HTML5-хранилище. После загрузки страницы делается проверка JS-скриптом. Если нет поля - выкидывает с сервера). Или для Вас это не проблема?

Добавьтесь ко мне в джаббер, кстати. Там есть аниме, сиськи и неформальное общение.

ktulhu666 ☆☆☆
() автор топика
Ответ на: комментарий от ktulhu666

У тебя расчеты для идеального случая в вакууме.

Csrf не проблема. Попозже могу показать авторизация для Лора, там несколько строк на питоне.

pi11 ★★★★★
()
Ответ на: комментарий от pi11

У тебя расчеты для идеального случая в вакууме.

Обоснуйте. Или Вы считаете, что сервер не может вытянуть пару десятков браузеров в секунду?

ktulhu666 ☆☆☆
() автор топика
Ответ на: комментарий от ktulhu666

Ты просто думаешь что сервер тебе всегда будет идеальные страницы за 50мс выдавать, а это не так. Он может выдать пустую страницу, 500-ю ошибку, думать секунд 40 и т.д. На Лоре еще qrator юзается он твой кластер сразу и побанит. В общем в сети слишком много условий влиять на которые ты не можешь.

pi11 ★★★★★
()
Последнее исправление: pi11 (всего исправлений: 1)
Ответ на: комментарий от ktulhu666

А у ходупа он неменьше как минимум:) И никто ж не требует читать его весь)

pylin ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.