LINUX.ORG.RU

Где взять стоп/спам-слова для email-a из *первоисточника*?

 


0

2

Где взять стоп/спам-слова для мыла из ПЕРВОИСТОЧНИКА?

Там должно быть около 500-800 слов. И,если некоторые из них присутствуют в мыле, такое мыло скорее всего попадёт. Кто знает - тот поймёт.

Или, существует ли вообще тут первоисточник? Открытый, доступный всем, бесплатный.



Последнее исправление: igoramus (всего исправлений: 1)
Ответ на: комментарий от AEP

Ты у меня спрашиваешь?

SpamAssassin ВСЕ почтовики берут за основу? Или как?

SpamAssassin сам откуда-то ещё берёт этот список слов? Или он их сам собирает?

igoramus
() автор топика

Кто знает - тот поймёт.

Кто понимает — тот знает. Первое правило клуба.

debugger ★★★★★
()
Ответ на: комментарий от igoramus

Единого списка слов - признаков спама нет. SpamAssassin не является единственным решением для отсева спама, но у него и у решений на основе rspamd (которые в конечном счете используют базы SpamAssassin) наибольшая доля рынка среди опенсорсных.

Теперь по поводу происхождения правил SpamAssassin. Они не сводятся к списку слов - там регулярные выражения, которые в некоторых случаях ловят слова, в некоторых случаях - фразы (например, «per dose»), а некоторые написаны, чтобы ловить явную абракадабру, которой раньше пытались дурить фильтры. Кроме того, в правилах есть веса, которые определяют, насколько спамным (или, наоборот, позитивным) считается каждое регулярное выражение. Сами регулярные выражения (т.е. по сути списки слов и фраз, на которые SpamAssassin реагирует) составляются руками (т.е. не берутся из других источников), а назначение весов происходит автоматически методами машинного обучения по корпусам известного спама и заведомого неспама, которые созданы вручную.

AEP ★★★★★
()
Последнее исправление: AEP (всего исправлений: 1)
Ответ на: комментарий от igoramus

Список слов, фраз, и прочего представимого регулярными выражениями зла можно получить из архива по ссылке, как уже было сказано.

По вопросу «считать ли это первоисточником» - ответ «нет». По большому счету, первоисточником является спам, но в спаме есть еще много хороших слов, поэтому еще нужен неспам, в котором хорошие слова есть, а плохих нет. Но корпус спама и неспама - это не «500-800 слов», которые вы ищете, а миллионы сырых писем.

Я утверждаю, что базы SpamAssassin - это наиболее близкая к первоисточнику, из бесплатно доступных, вручную созданная выжимка спам-слов и фраз, на которую уже ориентируются почтовики.

По вопросу «все ли почтовики берут это за основу» - ответ однозначно «нет».

AEP ★★★★★
()
Последнее исправление: AEP (всего исправлений: 1)

А что значит термин «первоисточник» в вашем посте? Гугл по запросу выдает ссылку только на этот тред. Просто интересно это какой-то жаргон рассыльщиков емейлов или что, потому что фраза «email из первоисточника» для меня звучит как «email бодланул бодленка».

mydibyje ★★★★
()
Ответ на: комментарий от mydibyje

Мое понимание слова «первоисточник» основано на этом вопросе топикстартера:

SpamAssassin сам откуда-то ещё берёт этот список слов? Или он их сам собирает?

Если бы разработчики правил для SpamAssassin’а брали часть своих регулярок у производителей условного SuperDuperSpamFilter, то в моем понимании этот SuperDuperSpamFilter был бы ближе к первоисточнику.

AEP ★★★★★
()
Ответ на: комментарий от AEP

Хм, я думал, что типа этот термин может значить некую базу данных в которой собраны всякие «нигерийские письма».

В таком случае предполагаю что у почтовых сервисов, которые занимают большую половину рынка, например гмаил, аутлукмаил и прочие, есть свои базы с сигнатурами спама (тут наблюдается аналогия с антивирусниками и их базами файлов) и они не будут их выкладывать в общий доступ, а у опенсорс решений базы будут на порядки меньше.

mydibyje ★★★★
()
Последнее исправление: mydibyje (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.