LINUX.ORG.RU

История изменений

Исправление psv1967, (текущая версия) :

1. читаю все файлы беря из них только «произведения»

2. делаю в каждом из файлов скользящее окно — «предыдущее, текущее, следующее».

3. сворачиваю PCA все тройки «предыдущее, текущее, следующее» по всем файлам данных в плоскость (график собственных значений в PCA говорит, что вся вариация укладывается в плоскость)

4. на плоскости забавная симметричная картина точек которые посещает по некой траектории каждая трубка-файл_данных.

5. разбиваю эту область кластерным анализом на зоны которые посещает траектория трубки-файла_данных. цель преобразовать траекторию к некой последовательности небольшого числа состояний.

6. Полученные последовательности-фразы описывают переходы в каждой трубке-файле данных. Обрабатываем это методом, вычисляющим расстояние между разными последовательностями-фразами по вхождению в них одинаковых подстрок...

7. попытка просто вслепую классифицировать эти подстроки весьма утомительной получается «их реально много разных"ТМ :). Но метод с обучением „по образцу“ прекрасно различает эти траектории выделяя скорее всего нечто общее в подстроках описывающих траектории. если задать вектор который показывает бяки-небяки, то ksvm имеет неплохии шансы (судя по моей попытке отличить *I3* с нулевой ошибкой кросвалидации) разделить бяк от небяк. (если появятся совпадения можно увеличить длину окна на входе в анализ)

PS возможно Ваши расчеты уже дали предварительную классификацию если ее представить в виде вектора к входным файлам, то можно попробовать применить для получения искомого классификатора.

Исправление psv1967, :

1. читаю все файлы беря из них только «произведения»

2. делаю в каждом из файлов скользящее окно — «предыдущее, текущее, следующее».

3. сворачиваю PCA все тройки «предыдущее, текущее, следующее» по всем файлам данных в плоскость (она по графику собственных значений в PCA говорит, что вся вариация укладывается в плоскость)

4. на плоскости забавная симметричная картина точек которые посещает по некой траектории каждая трубка-файл_данных.

5. разбиваю эту область кластерным анализом на зоны которые посещает траектория трубки-файла_данных. цель преобразовать траекторию к некой последовательности небольшого числа состояний.

6. Полученные последовательности-фразы описывают переходы в каждой трубке-файле данных. Обрабатываем это методом, вычисляющим расстояние между разными последовательностями-фразами по вхождению в них одинаковых подстрок...

7. попытка просто вслепую классифицировать эти подстроки весьма утомительной получается «их реально много разных"ТМ :). Но метод с обучением „по образцу“ прекрасно различает эти траектории выделяя скорее всего нечто общее в подстроках описывающих траектории. если задать вектор который показывает бяки-небяки, то ksvm имеет неплохии шансы (судя по моей попытке отличить *I3* с нулевой ошибкой кросвалидации) разделить бяк от небяк. (если появятся совпадения можно увеличить длину окна на входе в анализ)

PS возможно Ваши расчеты уже дали предварительную классификацию если ее представить в виде вектора к входным файлам, то можно попробовать применить для получения искомого классификатора.

Исходная версия psv1967, :

1. читаю все файлы беря из них только «произведения»

2. делаю в каждом из файлов скользящее окно — «предыдущее, текущее, следующее».

3. сворачиваю PCA все тройки «предыдущее, текущее, следующее» по всем файлам данных в плоскость (она по графику собственных значений в PCA говорит, что вся вариация укладывается в плоскость)

4. на плоскости забавная симметричная картина точек которые посещает по некой траектории каждая трубка-файл_данных.

5. разбиваю эту область кластерным анализом на зоны которые посещает траектория трубки-файла_данных. цель преобразовать траекторию к некой последовательности небольшого числа состояний.

6. Полученные последовательности-фразы описывают переходы в каждой трубке-файле данных. Обрабатываем это методом, вычисляющим расстояние между разными последовательностями-фразами по вхождению в них одинаковых подстрок...

7. попытка просто вслепую классифицировать эти подстроки весьма утомительной получается «их реально много разных"ТМ :). Но метод с обучением „по образцу“ прекрасно различает эти траектории выделяя скорее всего нечто общее в подстроках описывающих траектории. если задать вектор который показывает бяки-небяки, то ksvm имеет неплохии шансы (судя по моей попытке с нулевой ошибкой кросвалидации) разделить бяк от небяк. (если появятся совпадения можно увеличить длину окна на входе в анализ)

PS возможно Ваши расчеты уже дали предварительную классификацию если ее представить в виде вектора к входным файлам, то можно попробовать применить для получения искомого классификатора.