Рейтинг, средняя оценка

0

1

Здравствуй лорчик. Пытаюсь решить одну проблему, суть такова. Есть музыкальные треки и оценки к ним из разных источников (last.fm, spotify и т.д.) Нужно посчитать одну оценку. Допустим есть три оценки трека из разных источников, нужно посчитать на основании этих данных одну. Сейчас просто считается средняя (оценки приведены к диапазону [0; 1]), но с этим есть проблемы. Не для всех треков есть по три оценки, для некоторых есть оценки только из одного источника, допустим last.fm. И эти оценки могут быть для некоторых исполнителей похожи на оценки spotify, а для некоторых выше оценок spotify. И песни, у которых есть две оценки, будут иметь рейтинг ниже песен, у которых одна оценка, что несправедливо)

Что можно использовать вместо среднего арифметического, чтобы избежать такого негативного эффекта? Вот как это выглядит, трек это точка, его координаты - оценки https://imgur.com/a/Hh9k1jW Когда есть две оценки, все ок, когда всего одна, проблемы.

Ссылка

← Выбор сценария в зависимости от полученной ошибки

Bash. Вывести четыре состояния из двух возможных →

← 1 2 →

Ответ на: комментарий от goingUp 06.08.19 15:12:33 MSK

Ну вот собственно ты и придумал, как быть. Как ты получил 0.36 spotify из 0.55 lastfm? Просто применяй этот же способ преобразования, в случае если Spotify отсутствиует.

anonymous
(06.08.19 15:15:17 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.08.19 14:52:03 MSK

из-за стат выбросов.

Про статвыбросы можно говорить, только если число событий в выборке порядка десятка, да и то, если это события из _одного_ источника. А тут есть _два_ источника и соответстванно _два_ события с не понятно какой корреляцией.

Evgueni ★★★★★
(06.08.19 15:27:24 MSK)
Последнее исправление: Evgueni 06.08.19 15:28:13 MSK (всего исправлений: 1)

оценки приведены к диапазону [0; 1]

Кстати, проблема может быть ещё и в правильности приведения.

Например для процентной (стобалльной) системы достаточно поделить оценку на 100. Для десятибалльной — на 10. А вот для пятибалльной — нет, не разделить на 5. Потому что 5 в пятибальной может быть и примерно соответствует 100% (или 10), а вот 3 вовсе не соответствует 60% (или 6), а соответствует 50% (или 5) (средне), при этом 2 соответствует далеко не 40% (что означает чуть ниже среднего), а соответствует «плохо», то есть 20% или ниже. Пятибальная шкала не линейна.

anonymous
(06.08.19 15:29:09 MSK)

Ссылка

Ответ на: комментарий от LINUX-ORG-RU 06.08.19 08:22:27 MSK

Музон это субъективщина ещё та, а во всей песне нам нравиться только определённые временные отрезки и/или их сочетания. Математику тут надо на помойку выкидывать как сущность. Важна не оценка, а на каком этапе прослушивания слушатель возжелал её задать оценку эту

Вот так и культивируется так называемое «клиповое мышление».

anonymous
(06.08.19 15:32:50 MSK)

Ответ на: комментарий от Evgueni 06.08.19 15:27:24 MSK

Не важно что за источники, их зависимость. Если есть равенство/близость медианы и среднего, то можно защититься от выбросов в выборках, заменив среднее значение медианой.

anonymous
(06.08.19 15:43:52 MSK)

Ответ на: комментарий от anonymous 06.08.19 15:43:52 MSK

Как ты будешь медиану от выборки в два значения брать? И главное, зачем. Это имеет смысл только если значений относительно много. Если их два или три, то медиана ничем не лучше среднего. Если бы хотя бы 10 знечений было, имело бы смысл, а так — никакого толку, имхо.

anonymous
(06.08.19 15:49:47 MSK)

Ответ на: комментарий от anonymous 06.08.19 15:49:47 MSK

Медина от четного количества - это среднее двух соседних центральных. Но это не имеет значения при отбрасывании мин-макса, так как все равно считается среднее оставшихся. Потому что средее легче посчитать, чем сортировать и брать центральный элемент. Главное условие (гипотеза), что равны медиана и средее.

Среднее больших выборок, как раз менее зависим от выбросов, чем среднее маленьких выборок. То есть нет смысла отбрасывать мин-макс на больших выборках.

anonymous
(06.08.19 16:08:10 MSK)

Ответ на: комментарий от anonymous 06.08.19 16:08:10 MSK

Дело в том, что ТС вполне устраивает среднее, если есть все три источника. Его не устраивает, если источника два, или он один. В обоих случаях медиана получается равна среднему, так что это не решает проблемы.

anonymous
(06.08.19 16:21:34 MSK)

Ответ на: комментарий от anonymous 06.08.19 16:21:34 MSK

TC не определился с количеством источников. Он просто взял один конкретный случай, напридумал гипотез, и индуктивно придумывает свою будущую совокупность (эксперт без совокупности). Ничего общего с реальностью там нет. Только чисто случайно это может описывать реальность, которую он еще не знает.

Как оправдание тыканий ТС пальцем в небо: эйнштейн тоже придумал ОТО, и не подозревал о существовании черных дыр.

anonymous
(06.08.19 16:35:17 MSK)

Ответ на: комментарий от anonymous 06.08.19 16:35:17 MSK

Я бы не сравнивал Эйнштейна с его Теорией тяготения и ТС с его усреднением, так как первый создавал ТТ из вполне очевидных теоретических посылок (принцип эквивалентности и существование инерциальных систем) максимально простым способом, а ТС именно, что тычет пальцем в небо.

Evgueni ★★★★★
(06.08.19 16:41:07 MSK)
Последнее исправление: Evgueni 06.08.19 16:41:54 MSK (всего исправлений: 1)

Ответ на: комментарий от Evgueni 06.08.19 16:41:07 MSK

Я бы не сравнивал Эйнштейна с его Теорией тяготения и ТС с его усреднением, так как первый создавал ТТ из вполне очевидных теоретических посылок (принцип эквивалентности и существование инерциальных систем) максимально простым способом

Поэтому нобелевку он получил за фотоэффект, который хорошо описывал реальность. А не за теоретические изыскания, которые только сейчас подтверждаются: грав. волны, «фотографии» черной дыры в центре галактики.

При этом фотоэффект - это предшественник квантовой механики не очень дружественный к ото.

anonymous
(06.08.19 16:55:05 MSK)

1) Пропущенные оценки заменяешь случайной величиной («равномерной» если ничего не известно, или «случайно выбранной из имеющихся для аналогичных песен»). Делаешь так 10 тысчь раз и квантили получившейся перевыборки выводишь как доверительный интервал.

2) Вычисляешь для этой песни «как её оценили бы» на сервисе где этой песни нет по тем песням у которых есть оценка. (ну там строишь ембендинги для «автор», «стиль», «год» и т.д. и т.п.)

psv1967 ★★★★★
(06.08.19 18:53:42 MSK)

Если нужна одна цифра - можно например посчитать сумму с учетом весовых факторов отдельных источников.

anonymous
(06.08.19 19:16:41 MSK)

Ссылка

Ответ на: комментарий от goingUp 06.08.19 14:57:41 MSK

Я так понял кластеры нужны «большие», типа там новые исполнители, «средние», старые?

в кластера соединяется то, эффект от чего на рейтинг хочется убрать. иначе, группы где есть определенный «мусорный» сдвиг рейтинга

вообще это т.н. mixed-effects model наподобие РейтингНаСайте = Сайт + Год + ГруппаПопулярности + КачествоПесни, но сказав «кластер» я упростил до РейтингНаСайте = КластерНаСайтеСдвигающийРейтинг + КачествоПесни потому что такой сдвиг банально убирается (при E[КачествоПесни]=0), но надо «заранее» задать кластера, сплющив факторы в один уровень. можно и не на слишком большие кластера дробить, суть - моменты достаточно точно оценить.

вся эта пляска нужна чтобы объединять КачествоПесни вместо РейтингНаСайте между сайтами (например, взвешенным средним по числу оценок и/или коэффициенту точности). Поэтому факторы как Жанр,Исполнитель наверное не надо выделять, чтобы они остались и в финальном результате.

если хочется заморочиться с полноценной моделью - см. например в R nlme::lme.

anonymous
(06.08.19 19:31:29 MSK)

Ответ на: комментарий от anonymous 06.08.19 15:32:50 MSK

Анон, ты само понятие «клиповое мышление» не понимаешь. Причём тут это вообще? Не надо путать тёплое и мягкое. Тут суть в том что есть песня она тебе нравится и в ней есть барабанные канонады которые сопровождаются тёплыми басами виолончели и нотками нежного вокала белокурой тян и этот момент в музыкальном воспроизведении вызывает восторг и аплодисменты, в другой музыкальной композиции от другого автора и даже на другом языке может быть очень похожая ситуация, тоесть у них будет общий стиль, общие «нотки» так сказать и вот именно это надо находить, то что на более всего цепляет. Ты мля ещё скажи что цитирование интересных отрезков и просто цитат из книг это тоже «клиповое мышление» =) Да и вообще так называемое «клиповое мышление» не страшно о слова совсем, оно есть у всех и у меня и у тебя и у наших пра пра пра бабушек было это так сказать мы не слоупоки, а проблема в том что когда оно преобладает над всем остальным, тоесть человек может и любит воспринимать краткую, яркую и однозначную информацию, но совершенно не может вникать в долгосрочные и/или сложносвязные понятия и вообще подобную информацию ну к примеру длинную историю в книге как минимум. Либо в таких людях дискомфорт от такой инфы либо они вообще её не понимают, но если так, то это уже клиника и им надо в больничку.

LINUX-ORG-RU ★★★★★
(06.08.19 19:34:38 MSK)

Ответ на: комментарий от LINUX-ORG-RU 06.08.19 19:34:38 MSK

вот именно это надо находить, то что на более всего цепляет.

Вот именно про это. Культивируется «цепляемость», «вирусность». В общем, максимально эксплуатируются «изъяны центральной нервной системы» конечного потребителя в обществе потребления.

Ничего неестественного в этих «изъянах» нет. Неестестенно (плохо) то, что это техногенно культивируется. Ресурсы тратятся на эксплуатацию «изъянов», способствуя их «развитию», получая преимущество перед нормальными функциями цнс.

anonymous
(06.08.19 21:10:50 MSK)

Ответ на: комментарий от anonymous 06.08.19 21:10:50 MSK

Блин я же сказал что цепляем мы секунды от дорожки для отпределения паттерна и сравнения потом их, ну чё можно брать звуковые ряды целиком и целиком сравнивать, но тогда для обработки домашней библиотеки музыки понадобится арендовать Ломоносова на недельку или иной суперкомп брать

LINUX-ORG-RU ★★★★★
(06.08.19 22:07:44 MSK)

Ответ на: комментарий от LINUX-ORG-RU 06.08.19 22:07:44 MSK

тогда для обработки домашней библиотеки

Кто ж тебе в 2к19 разрешит домашнюю библиотеку? Всё уже лежит у «арендованного ломоносова» и ждет нажатия лайка. Только не забывай платить, а то конкуренты переарендуют, и придется вместо лайков китайские иероглифы жать.

anonymous
(06.08.19 22:24:55 MSK)

Ответ на: комментарий от anonymous 06.08.19 22:24:55 MSK

Кто ж тебе в 2к19 разрешит домашнюю библиотеку?

Ещё я спрашивать буду, как была у меня 10 лет назад так и осталась, лежит жрать не просит послушать можно и без инета. Хотя всё новое не качаю уже давно много лет, всё есть в сети. А то что есть удалять жалко. У меня куча cd болванок нарезаных давным давно )

LINUX-ORG-RU ★★★★★
(06.08.19 22:31:28 MSK)

Ответ на: комментарий от LINUX-ORG-RU 06.08.19 22:31:28 MSK

Ещё я спрашивать буду, как была у меня 10 лет назад так и осталась

Твой хлам никого не интересует, хоть до дыр облайкайся. Чтобы быть «как все», тебе придется лайкать только то, что лежит у «арендованного ломоносова». А лежать там будет только, то что эффективно (для кого надо) лайкают.

anonymous
(06.08.19 22:39:26 MSK)

Ответ на: комментарий от anonymous 06.08.19 22:39:26 MSK

)))

LINUX-ORG-RU ★★★★★
(06.08.19 22:44:03 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.08.19 22:39:26 MSK

Твой хлам никого не интересует

Если заинтересует, то думаю, сам догадаешься кого. Так что, лучше не откладывай с избавлением от хлама.

anonymous
(06.08.19 22:51:03 MSK)

Ссылка

Ответ на: комментарий от psv1967 06.08.19 18:53:42 MSK

ну там строишь ембендинги

Чего-то гуглятся в основном эмбеддинги из машинного обучения. Или это они и есть?

goingUp ★★★★★
(07.08.19 06:53:37 MSK) автор топика

Ответ на: комментарий от anonymous 06.08.19 19:31:29 MSK

Спасибо за помощь всем

goingUp ★★★★★
(07.08.19 06:56:01 MSK) автор топика

Ссылка

Ответ на: комментарий от LINUX-ORG-RU 06.08.19 22:07:44 MSK

но тогда для обработки домашней библиотеки музыки понадобится арендовать Ломоносова на недельку или иной суперкомп брать

Spotify предоставляет через апи анализ https://developer.spotify.com/documentation/web-api/reference/tracks/get-audi... Числа, уже готовые для перемалывания методами машинного обучения, если осилишь ;) Есть даже по фрагментам https://developer.spotify.com/documentation/web-api/reference/tracks/get-audi...

goingUp ★★★★★
(07.08.19 07:01:31 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 06.08.19 16:55:05 MSK

Поэтому нобелевку он получил за фотоэффект, который хорошо описывал реальность. А не за теоретические изыскания, которые только сейчас подтверждаются: грав. волны, «фотографии» черной дыры в центре галактики.

Не очень понял о чём спор, но в вашем утверждении есть несколько нюансов, которые ставят под сомнение его ценность:

СТО тоже хорошо описывает реальность, в которой скорость света константа не зависимо от СО что на тот момент подтверждали эксперименты с очень хорошей точностью, так что нет никаких различий между объяснением фотоэффекта и СТО
На момент написания ТТ был эксперимент, который никак другими на тот имеющимися моделями тяготения количественно не описывался aka смещение перегея Меркурия, так что народ активно пытался это объяснить и только ТТ смогла это сделать (следует отметить, что делает это с успехом до сих пор — ищи статьи Питьевой по этому поводу)
Причина по которой дали Эйнштейну Нобелевку за фотоэффект, а скажем не за СТО (первая из десятки (или девятки?) номинаций Эйнштейна была как раз по этой теме), которая сейчас является просто базовым физаппаратом, объясняется просто: на тот момент не все уважаемые физики от которых это зависило воспринимали СТО в силу относительно низкой математической подготовки и/или упёртости — чтобы дать премию за СТО пришлось бы ждать пока они вымрут, а учёные живут в среднем дольше среднего. Так что Нобелевская премия 1922 это был компромисс aka премия по совокупности вкладов, хотя фотоэффект тоже открытие достойное Нобелевки.

Evgueni ★★★★★
(07.08.19 07:41:33 MSK)
Последнее исправление: Evgueni 07.08.19 07:47:38 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от goingUp 07.08.19 06:53:37 MSK

Чего-то гуглятся в основном эмбеддинги из машинного обучения. Или это они и есть?

Именно они. Каждая достаточно часто встречаемая фича (автор, стиль, год, исполнитель и т.д.) может получить вектор оценок по которым вполне может с лучшим качеством прогнозироваться отсутствующая «средняя оценка».

psv1967 ★★★★★
(07.08.19 12:42:41 MSK)

Ссылка

А нельзя делать поправку не на количество оценок, а на количество оценивших пользователей? Это было бы логично, на одном сервисе трэк прослушали 1000 человек и оценка хорошая, на втором прослушали 100 и оценка низкая. Соответственно оценка второго сервиса учитывается меньше.

nguseff
(12.08.19 20:35:56 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Выбор сценария в зависимости от полученной ошибки

Development

Bash. Вывести четыре состояния из двух возможных →

Похожие темы