История изменений
Исправление AEP, (текущая версия) :
Единого списка слов - признаков спама нет. SpamAssassin не является единственным решением для отсева спама, но у него и у решений на основе rspamd (которые в конечном счете используют базы SpamAssassin) наибольшая доля рынка среди опенсорсных.
Теперь по поводу происхождения правил SpamAssassin. Они не сводятся к списку слов - там регулярные выражения, которые в некоторых случаях ловят слова, в некоторых случаях - фразы (например, «per dose»), а некоторые написаны, чтобы ловить явную абракадабру, которой раньше пытались дурить фильтры. Кроме того, в правилах есть веса, которые определяют, насколько спамным (или, наоборот, позитивным) считается каждое регулярное выражение. Сами регулярные выражения (т.е. по сути списки слов и фраз, на которые SpamAssassin реагирует) составляются руками (т.е. не берутся из других источников), а назначение весов происходит автоматически методами машинного обучения по корпусам известного спама и заведомого неспама, которые созданы вручную.
Исходная версия AEP, :
Единого списка слов - признаков спама нет. SpamAssassin не является единственным решением для отсева спама, но у него и у решений на основе rspamd (которые в конечном счете используют базы SpamAssassin) наибольшая доля рынка среди опенсорсных.
Теперь по поводу происхождения правил SpamAssassin. Они не сводятся к списку слов - там регулярные выражения, которые в некоторых случаях ловят слова, в некоторых случаях - фразы (например, «per dose»), а некоторые написаны, чтобы ловить явную абракадабру, которой раньше пытались дурить фильтры. Кроме того, в правилах есть веса, которые определяют, насколько спамным (или, наоборот, позитивным) считается каждое регулярное выражение. Сами регулярные выражения (т.е. по сути списки слов и фраз, на которые SpamAssassin реагирует) составляются руками, а назначение весов происходит автоматически методами машинного обучения по корпусам известного спама и заведомого неспама, которые созданы вручную.