Статья: https://arxiv.org/abs/1812.08775
Комментарий в twitter-треде: https://twitter.com/david_madras/status/1075954423082508294
Для тру:
Товарищи сделали ML-модель, которая определяет принимать или не принимать статью к публикации в журнал. На тестовом множестве модель показывает себя хорошо: отбрасывает около 50% плохих статей и менее 1% хороших.
Но есть одно но.
Модель никак не учитывает содержания статей, она основана только на внешнем виде статьи (в буквальном смысле). Так например после обучения получилось что больший вес получают статьи, в которых
1) на первой странице есть картинка;
2) статья имеет 8 страниц.
В этом простом примере применимость модели можно определить на глаз, интуитивно. В более сложных случаях (бота-рекрутера например) такой возможности нет.
Что приводит к вопросу: как вообще определять критерии качества и применимости моделей.