Книги

data-mining, parsing

0

4

В последнее время по работе приходится писать различные парсеры, сборщики статистики и т.п. Собственно, заинтересовала данная тема.
Посоветуйте, пожалуйста, годной литературы на эту тему (на русском и на английском).
Пока что нашел книгу Mining the Social Web
Интересует именно data-mining аспект (т.е. эффективный сбор raw-data, анализ + визуализация), а не написание синтаксических анализаторов для ЯП. А если в книге будут практические примеры - это вообще будет замечательно!

PS: сорри, если тему не в том разделе создал

Ссылка

← вопрос

Скорость компиляции С++ компиляторов →

Вот О'Рейли пиарит подборочку, не знаю, пригодится тебе или нет. http://shop.oreilly.com/category/get/data-science-kit.do

Вообще у них целая секция на сайте под это дело: http://oreilly.com/data/index.html

Hoodoo ★★★★★
(10.04.12 10:48:33 MSK)

Ответ на: комментарий от Hoodoo 10.04.12 10:48:33 MSK

Секцию ту смотрел...Просто книг много, какие годные, а какие нет - не понятно.

kovrik ★★★★★
(10.04.12 10:50:57 MSK) автор топика

cast Evgueni -m 'Тут про визуализацию данных спрашивают!'

Hoodoo ★★★★★
(10.04.12 10:58:53 MSK)

Ссылка

Ответ на: комментарий от kovrik 10.04.12 10:50:57 MSK

Посмотрел пару книг - меня интересуют все-таки техники сбора данных (с практическими примерами), а не статистический анализ (с кучей формул из тервера и т.п.).

kovrik ★★★★★
(10.04.12 10:59:36 MSK) автор топика

http://www.inp.nsk.su/~baldin/DataAnalysis/index.html — тут есть глава, а так же тут http://www.ozon.ru/context/detail/id/7952180/ есть немного

Evgueni ★★★★★
(10.04.12 11:13:56 MSK)

Ответ на: комментарий от kovrik 10.04.12 10:59:36 MSK

а не статистический анализ (с кучей формул из тервера и т.п.).

Тогда тебе придётся обломаться, так как нет волшебной кнопки и нужно понимать что ты делаешь.

Evgueni ★★★★★
(10.04.12 11:14:49 MSK)

Ответ на: комментарий от Evgueni 10.04.12 11:14:49 MSK

Возможно, я немного неправильно объяснил.

Одно дело, если есть огромная база чисел и их надо каким-то образом обработать через какие-нибудь сложные статистические формулы... Нет, я имел в виду не такое. Я имел в виду что-то вроде: есть web-странички, тексты, еще какие-нибудь источники информации. Требуется вычленить интересующие данные (отбросив все ненужное) и сохранить в базе. Это можно сделать, например, регулярками, но парсить регулярками html-код - моветон, Нужно строить DOM-дерево и разбирать уже его. И т.д. Интересует именно этот аспект. Какие еще техники есть и т.п.

kovrik ★★★★★
(10.04.12 11:20:18 MSK) автор топика

Ответ на: комментарий от Evgueni 10.04.12 11:13:56 MSK

По книге - там больше про обработку. А мне нужно про сбор данных. Как их потом обработать - это уже другой вопрос)

kovrik ★★★★★
(10.04.12 11:21:51 MSK) автор топика

Ответ на: комментарий от kovrik 10.04.12 11:21:51 MSK

А мне нужно про сбор данных

В смысле? Берёте и собираете. В чём конкретно проблема?

Evgueni ★★★★★
(10.04.12 11:28:08 MSK)

Ответ на: комментарий от Evgueni 10.04.12 11:28:08 MSK

Собственно, методы сбора данных и интересуют.

Ну т.е. например, есть веб-сайт. На нем куча страниц. Каким-то образом нужно собрать определенные данные с этого сайта.

kovrik ★★★★★
(10.04.12 11:34:24 MSK) автор топика

Ответ на: комментарий от kovrik 10.04.12 11:20:18 MSK

Нужно строить DOM-дерево и разбирать уже его

Тогда все же обратись к «синтаксическим анализаторам для ЯП».

staseg ★★★★★
(10.04.12 11:36:05 MSK)

Ссылка

Ответ на: комментарий от kovrik 10.04.12 11:34:24 MSK

Совершенно не понятно какое это имеет отношение к data mining.

Evgueni ★★★★★
(10.04.12 11:37:29 MSK)

Ответ на: комментарий от Evgueni 10.04.12 11:37:29 MSK

Возможно, ошибся термином

kovrik ★★★★★
(10.04.12 11:41:28 MSK) автор топика

Ответ на: комментарий от kovrik 10.04.12 11:41:28 MSK

Правильная постановка вопроса: «какие есть паттерны для построения парсеров?»

http://free-books.us.to/search?req=pattern %26 mining&nametype=orig&c...

soomrack ★★★★★
(10.04.12 12:00:39 MSK)

На правах топика. Кто что может порекомендовать по теме data mining и machine learning, big data. Заинтересовала эта область. Какие знания в области математики нужны и т.д?

anonymous
(10.04.12 12:27:36 MSK)

Ответ на: комментарий от soomrack 10.04.12 12:00:39 MSK

Сделал такую подборку:

Drew_Conway,_John_Myles_White-Machine_Learning_for_Hackers-O'Reilly_Media(2012).djvu

Maksim_Tsvetovat,_Alexander_Kouznetsov-Social_Network_Analysis_for_Startups__Finding_connections_on_the_social_web__-O'Reilly_Media(2011).djvu

Matthew_A._Russell-21_Recipes_for_Mining_Twitter-O'Reilly_Media(2011).djvu

Matthew_A._Russell-Mining_the_Social_Web__Analyzing_Data_from_Facebook,_Twitter,_LinkedIn,_and_Other_Social_Media_Sites-O'Reilly_Media(2011).djvu

Philipp_K._Janert-Data_Analysis_with_Open_Source_Tools__-O'Reilly_Media(2010).djvu

(Premier_Reference_Source_)pascal_Poncelet,_pascal_Poncelet,_Florent_Masseglia,_Maguelonne_Teisseire-Data_Mining_Patterns__New_Methods_and_Applications(2007).djvu

Steven_Bird,_Ewan_Klein,_Edward_Loper-Natural_Language_Processing_with_Python-O'Reilly_Media(2009).djvu

Zdravko_Markov,_Daniel_T._Larose-Data_Mining_the_Web__Uncovering_Patterns_in_Web_Content,_Structure,_and_Usage-Wiley-Interscience(2007).djvu

soomrack ★★★★★
(10.04.12 12:32:27 MSK)

Ответ на: комментарий от soomrack 10.04.12 12:32:27 MSK

Ухты, спасибо большое!

kovrik ★★★★★
(10.04.12 12:35:16 MSK) автор топика

Ответ на: комментарий от anonymous 10.04.12 12:27:36 MSK

На правах топика. Кто что может порекомендовать по теме data mining и machine learning, big data. Заинтересовала эта область. Какие знания в области математики нужны и т.д?

1. основы теории графаов
2. алгоритмы на графах (с оценкой сложности)
3. машинное обучение: нейронные сети (не люблю я их, но порой они очень эффективны), машина опорных векторов.
4. статистика: байесовские сети, метод максимального правдоподобия, метод наименьших квадратов.

Из математики, наверное для начала достаточно.

soomrack ★★★★★
(10.04.12 12:36:45 MSK)

Ссылка

Ответ на: комментарий от kovrik 10.04.12 12:35:16 MSK

Ухты, спасибо большое!

Но если ты только начинаешь этим заниматься, то советую для начала освоить след. инструменты:

0. perl: regexp
1. perl: HTML::Tree (для удобной работы с деревом)
2. perl: LWP
3. perl + firefox: MozRepl (чтобы делать perl скрипты для автоматической работы в firefox)
4. PostgreSQL для работы с большими данными.

По high load советую след. две книги:

Mark_Jason_Dominus-Higher-Order_Perl__Transforming_Programs_with_Programs-Morgan_Kaufmann(2005).djvu

Gregory_Smith-PostgreSQL_9.0_High_Performance-Packt_Publishing(2010).djvu