LINUX.ORG.RU

Книги

 data-mining,


0

4

В последнее время по работе приходится писать различные парсеры, сборщики статистики и т.п. Собственно, заинтересовала данная тема.
Посоветуйте, пожалуйста, годной литературы на эту тему (на русском и на английском).
Пока что нашел книгу Mining the Social Web
Интересует именно data-mining аспект (т.е. эффективный сбор raw-data, анализ + визуализация), а не написание синтаксических анализаторов для ЯП. А если в книге будут практические примеры - это вообще будет замечательно!

PS: сорри, если тему не в том разделе создал

★★★★★

cast Evgueni -m 'Тут про визуализацию данных спрашивают!'

Hoodoo ★★★★★
()
Ответ на: комментарий от kovrik

Посмотрел пару книг - меня интересуют все-таки техники сбора данных (с практическими примерами), а не статистический анализ (с кучей формул из тервера и т.п.).

kovrik ★★★★★
() автор топика
Ответ на: комментарий от kovrik

а не статистический анализ (с кучей формул из тервера и т.п.).

Тогда тебе придётся обломаться, так как нет волшебной кнопки и нужно понимать что ты делаешь.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

Возможно, я немного неправильно объяснил.

Одно дело, если есть огромная база чисел и их надо каким-то образом обработать через какие-нибудь сложные статистические формулы... Нет, я имел в виду не такое. Я имел в виду что-то вроде: есть web-странички, тексты, еще какие-нибудь источники информации. Требуется вычленить интересующие данные (отбросив все ненужное) и сохранить в базе. Это можно сделать, например, регулярками, но парсить регулярками html-код - моветон, Нужно строить DOM-дерево и разбирать уже его. И т.д. Интересует именно этот аспект. Какие еще техники есть и т.п.

kovrik ★★★★★
() автор топика
Ответ на: комментарий от Evgueni

По книге - там больше про обработку. А мне нужно про сбор данных. Как их потом обработать - это уже другой вопрос)

kovrik ★★★★★
() автор топика
Ответ на: комментарий от Evgueni

Собственно, методы сбора данных и интересуют.

Ну т.е. например, есть веб-сайт. На нем куча страниц. Каким-то образом нужно собрать определенные данные с этого сайта.

kovrik ★★★★★
() автор топика
Ответ на: комментарий от kovrik

Нужно строить DOM-дерево и разбирать уже его

Тогда все же обратись к «синтаксическим анализаторам для ЯП».

staseg ★★★★★
()

На правах топика. Кто что может порекомендовать по теме data mining и machine learning, big data. Заинтересовала эта область. Какие знания в области математики нужны и т.д?

anonymous
()
Ответ на: комментарий от soomrack

Сделал такую подборку:

Drew_Conway,_John_Myles_White-Machine_Learning_for_Hackers-O'Reilly_Media(2012).djvu

Maksim_Tsvetovat,_Alexander_Kouznetsov-Social_Network_Analysis_for_Startups__Finding_connections_on_the_social_web__-O'Reilly_Media(2011).djvu

Matthew_A._Russell-21_Recipes_for_Mining_Twitter-O'Reilly_Media(2011).djvu

Matthew_A._Russell-Mining_the_Social_Web__Analyzing_Data_from_Facebook,_Twitter,_LinkedIn,_and_Other_Social_Media_Sites-O'Reilly_Media(2011).djvu

Philipp_K._Janert-Data_Analysis_with_Open_Source_Tools__-O'Reilly_Media(2010).djvu

(Premier_Reference_Source_)pascal_Poncelet,_pascal_Poncelet,_Florent_Masseglia,_Maguelonne_Teisseire-Data_Mining_Patterns__New_Methods_and_Applications(2007).djvu

Steven_Bird,_Ewan_Klein,_Edward_Loper-Natural_Language_Processing_with_Python-O'Reilly_Media(2009).djvu

Zdravko_Markov,_Daniel_T._Larose-Data_Mining_the_Web__Uncovering_Patterns_in_Web_Content,_Structure,_and_Usage-Wiley-Interscience(2007).djvu

soomrack ★★★★★
()
Ответ на: комментарий от anonymous

На правах топика. Кто что может порекомендовать по теме data mining и machine learning, big data. Заинтересовала эта область. Какие знания в области математики нужны и т.д?

1. основы теории графаов
2. алгоритмы на графах (с оценкой сложности)
3. машинное обучение: нейронные сети (не люблю я их, но порой они очень эффективны), машина опорных векторов.
4. статистика: байесовские сети, метод максимального правдоподобия, метод наименьших квадратов.

Из математики, наверное для начала достаточно.

soomrack ★★★★★
()
Ответ на: комментарий от kovrik

Ухты, спасибо большое!

Но если ты только начинаешь этим заниматься, то советую для начала освоить след. инструменты:

0. perl: regexp
1. perl: HTML::Tree (для удобной работы с деревом)
2. perl: LWP
3. perl + firefox: MozRepl (чтобы делать perl скрипты для автоматической работы в firefox)
4. PostgreSQL для работы с большими данными.

По high load советую след. две книги:

Mark_Jason_Dominus-Higher-Order_Perl__Transforming_Programs_with_Programs-Morgan_Kaufmann(2005).djvu

Gregory_Smith-PostgreSQL_9.0_High_Performance-Packt_Publishing(2010).djvu

soomrack ★★★★★
()
Ответ на: комментарий от soomrack

regexp, HTML::Tree, LWP, Mechanize уже использую, остальные тоже гляну, спасибо!

kovrik ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.