Есть методы разведочного анализа. Наиболее известены Принципиальные компоненты (PCA). Но во всех этих методах надо «смотреть глазами» на результат анализа :) оно просто показывает те же данные что и так есть в максимально простом виде.
Это на случай когда просто есть данные и нет никакого понятия что это такое.
Если цель более конкретна — именно цель, в виде меня интересует вот этот показатель, то всё что на него влияет найти уже можно из сколь угодно большого кол-ва мусорных показателей с помощь того или иного фичеэкстрактора. Например типичный представитель library(Boruta) или какое нибудь «эластическое лассо» прикрученное к чему то типа svm.
Когда набор фич извлечен начинается обычный ML со всякими кроссвалидациями и ROC оценками-сравнниями решений...
Как то так.
PS ну ещё на основе генетики народ постоянно рождает новые революционные алгоритмы типа Ивахненковских которые типа «сами все делают» перебирая огромное пространство возможных аналитически содержательных моделей (а не просто тупо типа универсальных решений-«полиномов»). но это как бы всё мрии скорее всего...
в чистом виде «поиска закономерностей» нет толкового, просто потому, что данные IRL настолько зашумлены, что никаких новых закономерностей из них не извлечь, а те, что извлекаемы, и так очевидны(вроде «употребляющие наркотики долго не живут»).
Если закономерность найдена(предположительно), то можно проверить её достоверность, гуглить «математическая статистика». Работает это хорошо, но только если выборка достаточно большая. На практике, даже при достаточной выборке это подходит лишь для стратегических решений, в частном случае это может не только не сработать, а сработать в прямо противоположном направлении.
Есть специальные случаи, с ними проще. Но тут всё сильно зависит от специализации.
Тебе какие закономерности нужны? «Априори» ищет ассоциативные правила: всесте с пивом часто покупают подгузники. Если у тебя во времени какие-то действия, то можешь попробовать т-паттерны: человек сел за стол, через время икс взял вилку, через время икс2 вствл из-за стола.
Только что натолкнулся на ответ. Нет универсального алгоритма выявления закономерностей :(
А.С. Потапов Искусственный интеллект и универсальное мышление
Однако никакая композиция неуниверсальных алгоритмов не даст универсального алгоритма распознавания: сколько бы вы ни взяли классификаторов, каждый из которых умеет находить в данных свой тип закономерностей, всегда найдется закономерность, которую все эти классификаторы не смогут обнаружить.
Осталось только узнать какие типы закономерностей бывают, подскажите пожалуйста.
Мне не нужна философия, я про конкретный алгоритм спрашивал. Ты видимо неправильно понял слова «Осталось только узнать...» они относятся к моему второму вопросу в самом первом сообщении (на него так и не ответили), а не к твоим надуманным предположениям.
По-моему не очень понимаешь, что тебе нужно. Закономерность это очень расплывчатое понятие. Говорить просто об «алгоритмах поиска закономерностей» не имеет смысла, нужно иметь в виду класс задач. Раз уж ты упомянул про ассоциативные правила, то спешу тебя предупредить, что к задачам классификации и кластеризации она прямого отношения не имеют. Ты должен уточнить, какие закономерности ты ищешь. Но пальцем в небо, могу посоветовать тебе несколько статей. Только учти, что это все еще исследовательские статьи, и они ищут не те закономерности, что ищет APriori.
Discovering hidden time patterns in behavior: T-patterns and their detection. Magnusson MS. — это сейчас используется для поиска закономерностей в поведении животных.
Mining Partially Periodic Event Patterns With
Unknown Periods. Sheng Ma and Joseph L. Hellerstein
«Discovery of Frequent Episodes in Event
Sequences». HEIKKI MANNILA HANNU TOIVONEN A. INKERI
VERKAMO.
Frequent Pattern Mining. Charu C. Aggarwal. — если нужно, могу тебе скачать эту книжку.
Frequent pattern mining: current status and future
directions. Jiawei Han.
Ты действительно не понимаешь, что тебе нужно. Я тебе советую ознакомиться с основами машинного обучения. Без системного подхода и понимания о том как ставить задачи, ты только будешь спотыкаться о собственные заблуждения.
Надо сказать, твоя ссылка намного лучше, чем могла быть.
Например, вот эта классификация выковыряна из носа автором:
http://www.olap.ru/basic/img/ar2small004.jpg .
В чем проблема? Да в том, что тебе такое определение закономерности никак на деле не поможет.
Теперь попытаюсь объяснить, почему ты не понимаешь что хочешь. Ответь на первый вопрос: возьми последовательность цифр десятичной записи числа пи. Там есть закономерность? Какая?
Нет универсального алгоритма выявления закономерностей
неправда:
Однако никакая композиция неуниверсальных алгоритмов не даст
автор пропустил(очевидно где-то рядом есть про это «упущение») слово «детерминированная». Теоретически, не детерминированный алгоритм может дать ответ, хотя и не со 100% гарантией, но очень близко к этому.
Осталось только узнать какие типы закономерностей бывают, подскажите пожалуйста.
1. корреляция: свойства X, и Y зависимы.
2. следствие: свойство X является следствием Z(п1 это очевидно либо следствие, либо X и Y являются следствием некого Z). Хотя теоретически обычно достаточно этого пункта, но пункт 1 тоже полезен на практике, в силу того, что первопричина Z не нужна и/или сложно-вычисляемая.
их достаточно много, и без знания предметной части сложно что-то советовать. Может тебе простой экстраполяции (интерполяции) многочленом достаточно? Тогда для n известных точек, просто реши уравнение n-1`й степени. В многомерном случае лучше использовать Монте-Карло, в одномерном метод Ньютона например. Ну или Фурье, если данные имеют периодическую структуру.
Вот я нашел ответ на свой вопрос: Типы закономерностей
всё, что там перечислено, является причинно-следственной связью по времени. Т.е. событие X является причиной события Y, произошедшего позже. Далее авторы выделяют частные случаи этого частного случая. В более общем виде эта задача решается при сжатии данных, когда очередной символ кодер (а потом декодер) пытается угадать, в зависимости от контекста. Ну и если почти угадал, то почти не выдаёт бит, но если символ ВНЕЗАПЕН, то выдаёт много бит. Если мадскилз кодера(и декодера) прокачен, то на каждый символ уходит немного бит на радость нищебродам с маленькими HDD и узкими каналами.
такое определение закономерности никак на деле не поможет.
Ну это не тебе решать поможет или нет, вопрос то был не в этом.
А.С. Потапов Искусственный интеллект и универсальное мышление
... для понятия закономерности есть хорошая формализация - в виде алгоритмов. С помощью алгоритмов можно описать любую закономерность (по крайней мере, содержащуюся в массиве символов или чисел).
...
Сравнительно небольшими алгоритмами может быть напечатано и любое количество знаков таких трансцендентных чисел как пи, е или ln (2).