История изменений
Исправление psv1967, (текущая версия) :
1. читаю все файлы беря из них только «произведения»
2. делаю в каждом из файлов скользящее окно — «предыдущее, текущее, следующее».
3. сворачиваю PCA все тройки «предыдущее, текущее, следующее» по всем файлам данных в плоскость (график собственных значений в PCA говорит, что вся вариация укладывается в плоскость)
4. на плоскости забавная симметричная картина точек которые посещает по некой траектории каждая трубка-файл_данных.
5. разбиваю эту область кластерным анализом на зоны которые посещает траектория трубки-файла_данных. цель преобразовать траекторию к некой последовательности небольшого числа состояний.
6. Полученные последовательности-фразы описывают переходы в каждой трубке-файле данных. Обрабатываем это методом, вычисляющим расстояние между разными последовательностями-фразами по вхождению в них одинаковых подстрок...
7. попытка просто вслепую классифицировать эти подстроки весьма утомительной получается «их реально много разных"ТМ :). Но метод с обучением „по образцу“ прекрасно различает эти траектории выделяя скорее всего нечто общее в подстроках описывающих траектории. если задать вектор который показывает бяки-небяки, то ksvm имеет неплохии шансы (судя по моей попытке отличить *I3* с нулевой ошибкой кросвалидации) разделить бяк от небяк. (если появятся совпадения можно увеличить длину окна на входе в анализ)
PS возможно Ваши расчеты уже дали предварительную классификацию если ее представить в виде вектора к входным файлам, то можно попробовать применить для получения искомого классификатора.
Исправление psv1967, :
1. читаю все файлы беря из них только «произведения»
2. делаю в каждом из файлов скользящее окно — «предыдущее, текущее, следующее».
3. сворачиваю PCA все тройки «предыдущее, текущее, следующее» по всем файлам данных в плоскость (она по графику собственных значений в PCA говорит, что вся вариация укладывается в плоскость)
4. на плоскости забавная симметричная картина точек которые посещает по некой траектории каждая трубка-файл_данных.
5. разбиваю эту область кластерным анализом на зоны которые посещает траектория трубки-файла_данных. цель преобразовать траекторию к некой последовательности небольшого числа состояний.
6. Полученные последовательности-фразы описывают переходы в каждой трубке-файле данных. Обрабатываем это методом, вычисляющим расстояние между разными последовательностями-фразами по вхождению в них одинаковых подстрок...
7. попытка просто вслепую классифицировать эти подстроки весьма утомительной получается «их реально много разных"ТМ :). Но метод с обучением „по образцу“ прекрасно различает эти траектории выделяя скорее всего нечто общее в подстроках описывающих траектории. если задать вектор который показывает бяки-небяки, то ksvm имеет неплохии шансы (судя по моей попытке отличить *I3* с нулевой ошибкой кросвалидации) разделить бяк от небяк. (если появятся совпадения можно увеличить длину окна на входе в анализ)
PS возможно Ваши расчеты уже дали предварительную классификацию если ее представить в виде вектора к входным файлам, то можно попробовать применить для получения искомого классификатора.
Исходная версия psv1967, :
1. читаю все файлы беря из них только «произведения»
2. делаю в каждом из файлов скользящее окно — «предыдущее, текущее, следующее».
3. сворачиваю PCA все тройки «предыдущее, текущее, следующее» по всем файлам данных в плоскость (она по графику собственных значений в PCA говорит, что вся вариация укладывается в плоскость)
4. на плоскости забавная симметричная картина точек которые посещает по некой траектории каждая трубка-файл_данных.
5. разбиваю эту область кластерным анализом на зоны которые посещает траектория трубки-файла_данных. цель преобразовать траекторию к некой последовательности небольшого числа состояний.
6. Полученные последовательности-фразы описывают переходы в каждой трубке-файле данных. Обрабатываем это методом, вычисляющим расстояние между разными последовательностями-фразами по вхождению в них одинаковых подстрок...
7. попытка просто вслепую классифицировать эти подстроки весьма утомительной получается «их реально много разных"ТМ :). Но метод с обучением „по образцу“ прекрасно различает эти траектории выделяя скорее всего нечто общее в подстроках описывающих траектории. если задать вектор который показывает бяки-небяки, то ksvm имеет неплохии шансы (судя по моей попытке с нулевой ошибкой кросвалидации) разделить бяк от небяк. (если появятся совпадения можно увеличить длину окна на входе в анализ)
PS возможно Ваши расчеты уже дали предварительную классификацию если ее представить в виде вектора к входным файлам, то можно попробовать применить для получения искомого классификатора.