Какие существуют open-source библиотеки/технологии по дата-майнингу?
Интересует прежде всего: 1. Как классифицировать текст в соответствующую категорию (к примеру: финансы, спорт, ИТ...) 2. Как понять что два текста про один сюжет. (грубо говоря как яднекс.новости находит новости по одной и той же теме, но от разных СМИ)
Знаю про существование такого сервиса как OpenCalais, но не хотелось бы каждый раз отправлять запрос к ним.
(желательно, но не обязательно на питоне)