LINUX.ORG.RU

Каким критерием лучше сравнить модель и экспериментальную кривую?

 , , ,


0

2

Например, есть временной ряд, описывающий некоторый (нелинейный) процесс и есть временной ряд, построенный по модели этого процесса. Хочется получить одну цифру насколько одно другому соответствует. Сейчас делаю это через критерий корреляции Пирсона и всё даже работает... Но есть подозрение, что использовать его для таких сравнений некорректно, к тому же я придумал примеры, где в моём контексте он даст завышенный результат в плане «похоже», там где «визуально не похоже». Корректно ли его использовать для таких задач и какой критерий лучше использовать?

★★★★★

Не получится. В смысле одного числа не достаточно. Всё сильно зависит от контекста. Если у экспериментального ряда есть неопределённости, то традиционно используется критерий chi^2, но и в этом случае мало чего можно сказать. Можно сказать какая модель лучше описывает наблюдаемое распределение и насколько достоверно такое «лучше». Можно сказать с какой вероятностью модельная зависимость может быть получена из экспериментальной при условии что мы делаем разумное предположение какая неопределённость имеется в экспериментальных данных. Это пожалуй всё.

Итого: если есть разумно оцененные неопределённости (статистические непоределённости — это наименее лёгкая часть процесса), то можно с помощью подгонки экспериментального распределения моделью оценить неопределённости в параметрах модели, но это не избавляет от оценки систематических неопределённостей.

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 2)
Ответ на: комментарий от Evgueni

От себя добавлю что

у меня в моей области есть подобная проблема. И часто говорят фразу «мы придумали метод (или алгоритм для поиска или конечную функциональную зависимость) который лучше описывает экспериментальные данные». По-моему это «лучше» всегда ровно в том математическом смысле, где из равновероятных физических моделей с гауссовыми ошибками выбирается наиболее подходящая.

Является ли решение более правильным физически, может ли оказаться что истинная физическая модель имеет не-гауссовые ошибки, или может оказаться так, что из-за неправильных оценок ошибок истинная модель не самая лучшая с точки зрения критерия - все это в критериях не учитывается. Тут только интуиция уч0ного подскажет.

sshestov ★★
()
Ответ на: комментарий от alex-w

как вы ловко

его отшили :)

Хорошо бы пример хоть какой, более конкретный…

sshestov ★★
()
Ответ на: От себя добавлю что от sshestov

Если есть подозрение в том, что ошибки имеют не гауссовское распределение, то ничто не мешает задать более подходящее. Качество оценивается в вероятности (все эти плюс минус три или пять сигм по сути вероятность и есть), что данная теория может быть источником наблюдаемого распределения с учётом оцененных неопределённостей. Ничего другого у нас нет.

Ну и общее правило: а) лучше та модель, которая хоть как-то мотивирована чем-то за пределом этого эксперимента б) лучше та модель, которая имеет меньшее число параметров (это как-то chi^2 учитывает, но не очень хорошо)

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 4)
Ответ на: комментарий от Evgueni

Можно сказать с какой вероятностью модельная зависимость может быть получена из экспериментальной

Скорее это. Модель одна заданная, описывается k параметрами, применяется что бы вытащить эти параметры из ряда длинной n; n≫k. Использую scipy.optimize.curve_fit для этого (в режиме leastsq) достаточно точно задавая начальное приближение. Он, в принципе, возвращает неопределённость для каждого параметра модели, но там во первых встречаются случаи, когда посчитать её не получается, хотя глазами видно, что модель хорошо легла на данные; а во вторых, собственно, одна цифра нужна скорее что бы можно было отсечь «наименее достоверные» (т.е. там где сигнал утопает в шумах) данные и рассматривать только те, где есть уверенность что это не стат-флуктуация исходных данных. Данные представляют собой что-то такое.

при условии что мы делаем разумное предположение какая неопределённость имеется в экспериментальных данных.

Для экспериментальных данных неопределённость известна, там в основном дискретный гауссов шум АЦП + мизерное смещение ноля.

thunar ★★★★★
() автор топика
Последнее исправление: thunar (всего исправлений: 5)
Ответ на: комментарий от thunar

У тебя данные выглядят ...

красиво, и похоже что измеряемый процесс хорошо известен и понятен. Тогда да, хи-квадрат и всё хорошо.

Но представим, что в твоем измеряемом сигнале на самом деле есть две компоненты. Ну например помимо красивой падающей экспоненты внизу сидит еще колокольчик. Может быть вызван медленной зарядкой и разрядкой измеряющей электроники (колокольчик - потому что более медленный процесс). Тогда ты никакими хи-квадратами одну модель «красивая экспонента» от «экспонента+слабый колокольчик» не отличишь.

У меня было именно так с солнечными спектрами: в целом понятно что есть сильные линии с гауссовой формой, вполне определенно ширины. Но блендированы ли они похожими, но более слабыми линиями, есть ли засветки, которые по форме могут быть широкими гауссианами, правильно ли учтен фон детектора - это всё хи-квадрат не давал. Более того, он давал неправильные результаты.

sshestov ★★
()
Ответ на: комментарий от thunar

хотя глазами видно, что модель хорошо легла на данные

Это не аргумент.

отсечь «наименее достоверные»

Крайне опасная практика. Отсекать данные лучше не по результатам подгонки, а поискать причины по которой эти данные выпали. Очень может случиться, что нужно будет дискриминировать и другие данные.

там где сигнал утопает в шумах

Это разруливается приписыванием данным неопределённость.

там в основном дискретный гауссов шум АЦП + мизерное смещение ноля.

Ничто не мешает это оценить. Например через моделирование этого самого шума со смещением и накладыванию на модель.

То есть действовать можно в общем случае так: моделируем шум, накладываем на модель и так сто тысяч раз. Далее смотрим какое число результатов отклонится от модели больше/меньше чем эксперимент. Если все отклонились меньше, то очевидно что шум тут не причём и модель чего-то не учитывает. Если все больше, то очевидно что шум переоценен. Что-то по середине может дать вероятность, того что экспериментальное распределение может получиться из модели.

Evgueni ★★★★★
()
Ответ на: У тебя данные выглядят ... от sshestov

Более того, он давал неправильные результаты.

Это следствие неправильной оценки систематических неопределённостей. Безусловно в любой обработке это самое сложное.

Evgueni ★★★★★
()
Ответ на: комментарий от thunar

Посмотрел на картинку и не понял в чём проблема. Подгоняем методом наименьших квадратов чем-нибудь вида Логарифмический гаусс aka Новосибирская функция и всё хорошо. Главное чтобы всё было гладенько. По резко поплохевшему chi^2 можно определить, что подгонка разъехалась. Чтобы не разъезжалась нужно правильно задать начальную точку для подгонки, например, найти найти максимум, RMS и оценить площадь со средним в пределах максимум ± 3RMS. Если сигнал совсем не подгоняется, то это намёк что что-то погорело.

Тебе точность какая нужна? В чём задача.

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 1)

есть временной ряд, описывающий некоторый (нелинейный) процесс и есть временной ряд, построенный по модели этого процесса.

Нелинейное оценивание ©.

Хочется получить одну цифру насколько одно другому соответствует.

Как уже говорили предыдущие ораторы: невозможно, ибо статистически значима только совокупность параметров, да и то при определённых условиях.

quickquest ★★★★★
()
Ответ на: комментарий от Evgueni

Ну вот об этом и речь,

что математическими методами мы с этими систематическими неопределенностями (я называю это моделью) не определимся. А тогда какой смысл улучшать точность параметров на доли процента, если другая модель меняет параметры принципиально.

sshestov ★★
()

оцениваем похожесть разными методами

каждый метод рассматривается как эксперт

1 вариант : совокупность экспертов тупо голосует

2 вариант : вешаем тупенькую нейросеть и тренируем на свое субъективное нра\не нра.

olelookoe ★★★
()
Ответ на: комментарий от Evgueni

Посмотрел на картинку и не понял в чём проблема.

Ну там модель, что бы тестировать критерии. Вот с эксперимента. Функция есть уже, не новосибирская, но похожая, выбранная и общефизических соображений. Проблема в том что бы найти критерий отсечки — когда флуктуация, а когда амплитуды уже близки к шумам, но кривая ещё в явном виде проглядывается, например за счёт большой полуширины.

В чём задача.

У меня 4х параметрическая функция, но в основном нужно искать положения максимумов и площадь под кривой, полуширина и форма — уже интересуют поскольку-поскольку. В принципе, сама модель не важна, важно насколько модельная кривая ложится на экспериментальную.

Некоторые вообще не используют модель — влоб численно интегрируют по областям, но это так себе способ, особенно, учитывая, что границы этих областей определены не строго + накапливающаяся ошибка, которую нужно корректировать.

Крайне опасная практика. Отсекать данные лучше не по результатам подгонки, а поискать причины по которой эти данные выпали. Очень может случиться, что нужно будет дискриминировать и другие данные.

Они не выпадают, я получаю все, но детально рассматривать хочу только те, в которых «уверен». В принципе, то что выпадает видно в виде области в параметрическом пространстве, которая соответствует сигналам малой (сравнимой с шумами) амплитуды и малой длительности.

thunar ★★★★★
() автор топика
Последнее исправление: thunar (всего исправлений: 5)
Ответ на: комментарий от thunar

Посмотри пограничные случаи. Обычно они плохо подгоняются из-за того, что начальные параметры для подгонки были определены неверно. Попробуй подвигать пределы подгонки и поменять алгоритм выбора предварительного интеграла и максимума. Повазюкайся какое-то время (прямо вот так) после которого простые методы больше не будут давать улучшения, а потом построй chi^2 для плохих случаев и для хороших и посмотри где можно провести границу. Если есть сомнения (плохой chi^2, малая амплитуда и малая длительность), то лучше в твоём случае всю серию выкинуть и брать только те случаи, где подгонка надёжная.

P.S. Новосибирская функция возникла не на пустом месте (точнее конечно совершенно от фонаря, но подобные сигналы замечательно подгонялись). Так что можно попробовать и её.

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 3)
Ответ на: комментарий от olelookoe

Это простой случай и нейросеть здесь вряд ли что-то сможет улучшить. Слишком мало классификаторов и они хорошо могут разделить плохой от хорошего сигнала и так. В дополнение ко всему нейросеть даже простенькая, приносит с собой чёрный ящик, систематику которого не очень понятно как оценивать.

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 1)
Ответ на: Ну вот об этом и речь, от sshestov

Модельные и систематические неопределённости это всё-таки несколько разные сущности. Их конечено как правило сваливают в одну кучу, но класс систематических неопределенностей значительно шире, чем неопределённость от выбора модели.

Evgueni ★★★★★
()
Ответ на: комментарий от thunar

Проблема в том что бы найти критерий отсечки — когда флуктуация, а когда амплитуды уже близки к шумам, но кривая ещё в явном виде проглядывается, например за счёт большой полуширины.

Это забей руками, скажем слева полтора RMS, а справа четыре. Подвигай и просто посмотри. Наверное это можно автоматизировать, но IMHO это быстрее один раз просто поглядеть.

Evgueni ★★★★★
()

Твои кривые очень похожи на результат свертки «чего то почти прямоугольного» с весьма простой импульсной переходной функцией

Поэтому почитай вот это:

https://en.wikipedia.org/wiki/Deconvolution

Есть довольно много алгоритмов деконволюции где в явном виде подается образец шума как участок сигнала «где ничего нет».

psv1967 ★★★★★
()
Ответ на: комментарий от Evgueni

полез смотреть что всё-таки такое

систематическая неопределенность, и с наскока не нашел. Если уж она сильно шире и, видимо, во многих случаях главнее выбора модели - хотелось бы выяснить что это такое. Буду благодарен.

sshestov ★★
()
Ответ на: полез смотреть что всё-таки такое от sshestov

Вы не всегда можете подобрать правильную модель для описания наблюдаемых результатов. В моей области знаний модельная неопределённость относится только к выбору физической модели изучаемого процесса. Детекторные систематики таким образом обосабливаются в отдельную группу.

Вот моя диссертация. Там 50% фактической части посвящена оценки этих самых систематик. По времени это заняло 80% от самого анализа.

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 2)
Ответ на: комментарий от psv1967

Не факт, что там что-то прямоугольное. Это свёртка сигнала незнамо какой формы с аппаратной функцией, которая обычно представляется Гауссом припорошенная аналоговыми шумами.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

О, на ВЭПП-4 на станции «Космос» с Антоном Николенко кое-какие измерения проводили. Вот даже прям пример отсюда и берем: наблюдаем на детекторе (ПЗС-матрица) некое изображение. Оно формируется не только тем основным исследуемым пучком, которое проходит через монохроматор и исследуемый образец, но и рассеянным светом, бликами, темновым током детектора и его flat-field. Правильная интерпретация изображения должна включать и детекторные эффекты, и засветки и всё, что угодно, это кроме особенностей самого основного пучка.

Поэтому я бы не разделял «детектор» и исходную модель.

sshestov ★★
()
Ответ на: комментарий от psv1967

Свертка - это уже интерпретация исследователем измеряемого сигнала. Который может быть как сверткой, так и ею не являться. Например, когда мы следим за зарядкой/разрядкой конеднсатора (с экспоненциальными процессами) - то что с чем мы сворачиваем?

sshestov ★★
()
Ответ на: комментарий от thunar

Если 4-х параметрическая функция - это быстрая экспонента спереди (начало и время нарастания) и медленная сзади (начало, время спада), то возникает такой принципиальный момент: в этих экспонентах нет конца сигнала. Поэтому построить критерий на основе фита этой функции и эксперимента нельзя. Нужны какие-нибудь дополнительные соображения, когда можно считать «конец импульса».

Их вполне можно принять как сигма/2 или типа того и менять руками как вздумается.

Явно проглядываемые хвостики при спаде сигнала не мешают? Они не указывают на какой-нибудь недоучтенный фактор?

И да, как по мне, численное интегрирование площади - не такая уж плохая идея. Если «правильно» определен конец сигнала («правильно» означает вне импульса получаем ноль), то должно быть не менее точно.

sshestov ★★
()
Ответ на: комментарий от sshestov

Вы упрощает. В случае сложных детекторных систем ситуация гораздо более сложная. Я не зря дал ссылку на свою диссертацию. Вы ведь разобраться хотели, а не доказать свою правоту?

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

Именно разобраться...

но внимательно вчитываться в ваши 120 страниц не смогу (могу прислать свою в качестве «Алаверды»), да и убежден что понимания можно без этого достичь. В том числе дискуссией.

Пока-что мне кажется, что ваши эффекты, вызванные детектированием, более простые в том смысле, что могут быть выражены числом, скажем 0.03%.

А уж про то, что с термином систематические неопределенности не знаком - не взыщите. Пока учился, у нас таких слов не было, в интырнетах с ходу не находятся.

sshestov ★★
()
Ответ на: Именно разобраться... от sshestov

но внимательно вчитываться в ваши 120 страниц не смогу

Ну тогда поверьте мне на слово и не морочьте мне голову «разобраться»

Пока-что мне кажется, что ваши эффекты, вызванные детектированием, более простые в том смысле, что могут быть выражены числом, скажем 0.03%.

Вам кажется.

А уж про то, что с термином систематические неопределенности не знаком - не взыщите.

Ваши проблемы. Эти слова приходится изучать в случае прецизионных измерений. Либо эксперимент очень специально готовить, что не всегда возможно, либо с систематиками разбираться.

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 1)
Ответ на: комментарий от Evgueni

Очень благодарен за ваши ценные замечания и конструктивную беседу! Привет Новосибирску :)

sshestov ★★
()
Ответ на: комментарий от Evgueni

обычно представляется Гауссом

это если система Фредгольма уравнением описывается. А тут явно что то типа Вольтерра с псевдо(а то и явным)-временем.

psv1967 ★★★★★
()
Ответ на: комментарий от sshestov

когда мы следим за зарядкой/разрядкой конеднсатора

Ступеньку с импульсной переходной функцией (которая и есть в данном случае решением диффура распада, то есть експонентой) сворачиваем (интегрируем по т-тау в каждой точке времени).

psv1967 ★★★★★
()
Последнее исправление: psv1967 (всего исправлений: 1)
Ответ на: комментарий от sshestov

Который может быть как сверткой, так и ею не являться

не хочется тебя огорчать, но любая система описывается сверткой сигнала с переходной функцией (не обязательно линейной)

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

Вот вам в качестве контрпримера

[url=https://www.aanda.org/articles/aa/full_html/2019/02/aa33843-18/aa33843-18.html]статья[/url], где прям в аннотации написано что «не сверткой», а более общим видом - интегралом Фредгольма. Думаю еще примеры найдутся легко; квантовые системы наверняка со свертками тоже не очень.

Все-же с моей точки зрения это все является нашей интерпретацией измеряемых величин. При этом еще в лабнике в первой лабе было написано, что во время эксперимента следует записывать измеряемые величины, а их интерпретацией следует заниматься потом.

ЗЫ: Господа, а вы не круто берете? То «мои проблемы», то меня огорчать собираются… Нельзя ли как-то то более дружелюбно и конструктивно? Я понимаю что мне с моими дипломами до взрослых дяденек далеко; тем не менее, дискуссия то могла бы быть более интересная и продуктивная.

sshestov ★★
()
Ответ на: Вот вам в качестве контрпримера от sshestov

более общим видом - интегралом Фредгольма

Хватит убогого тут лепить.

Еще раз, нет систем которые не описываются своими переходными. В виде интегрального уравнения (и это именно «конволюция» называется, или «свертка» по русски) с соответствующим ядром представима любая система.

psv1967 ★★★★★
()
Ответ на: комментарий от sshestov

Если атом получает «входное воздействие» и выдает «ответ», то он описывается интегральным уравнением с ядром (возможно включающем входное воздействие).

Что за проблема то? «Система» это ЧЯ со входом и выходом (возможно многомерными).

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

Вот открываю Собельмана, и пытаюсь найти аналог вашей фразы «Если атом получает «входное воздействие» и выдает «ответ»». И не очень успешно :)

Вы точно уверены что про атомы именно так можно рассуждать? И, по-моему, в исходном вопросе с временной последовательностью никаких указаний про ЧЯ (это ж черный ящик, правильно?) и отклик не было. Был вопрос чем кривые аппроксимировать.

sshestov ★★
()
Ответ на: комментарий от sshestov

Это так издалека про то, что стохастические системы бывают? Или про что? И что, их уже не интегрируют?? Ну ядро под интегралом будет описывать распределение вероятности… ну и что это меняет?

Лучше на примере автомобилей аналогию давай (мыжежналореТМ). Норот подтянется.

psv1967 ★★★★★
()
Ответ на: комментарий от sshestov

Был вопрос

Что бы задать вопрос надо знать больше чем половину ответа.

Я ответил – аппроксимируют разлагая в ряд, дав образец шума или его модель. Что не устраивает?

Вот конкретный софт

https://cran.r-project.org/web/packages/waved/waved.pdf

psv1967 ★★★★★
()
Ответ на: комментарий от Evgueni

chi^2

Там нуле же в теоретической кривой, как с ними быть?

Так что можно попробовать и её.

Пробовал, хвосты плохие получились, этот вариант оказался лучше для большей части сигналов. Там по физике, вроде как может быть сумма двух подобных функций, но параметризовать это без многозначностей не получилось, да и вторая компонента сильно меньше основной.

Посмотри пограничные случаи. Обычно они плохо подгоняются из-за того, что начальные параметры для подгонки были определены неверно.

Вообще, я там добавил пару проверок на физическую адекватность, и флуктуации и выбросы пропали, т.е. теперь по пирсону отсекаются только сигналы малой амплитуды, и если строгость уменьшать, то в статистическом распределении они появляются там где и должны быть... Т.е., вроде, не очень оно и понадобилось в результате. Но хочется всё таки какую-то оценку иметь, на всякий случай.

Если взять разницу между теорией и экспериментом и смотреть её отклонение от нормального распределения, это что-то даст?

thunar ★★★★★
() автор топика
Последнее исправление: thunar (всего исправлений: 1)
Ответ на: комментарий от thunar

А оно там точно нормальное в смысле разность? Если формула подгонки достаточно отфонарная, то ожидать полного совпадения совершенно не стоит. Следует для начала задаться вопросом: какая нужна точность? Нужно ли мне отлавливать все сигналы или можно ограничиться только надёжными? И только ответив на этот вопрос можно понять на сколько нужно в это дело вкладываться.

Evgueni ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.