Вот моё понимание работы антиспам-фильтра: Хорошие анти-спам фильтры постоянно самообучаются используя разнообразные хитроумные алгоритмы.
Так например, если спамеры часто употребляют фразу «предложение от которого невозможно отказаться», то через некоторое антиспам-фильтр начнёт с подозрением относиться к письмам с данным словосочетанием(или даже с похожими словосочетаниями), с большей вероятностью считая их спамом. А через некоторое время, если тренд сохранится, вовсе будет сразу отмечать их как спам при одном только виде данной фразы.
Впрочем, на ошибках анти-спам фильтр тоже может учиться. Если я «помилую» какое-то из писем, то в следующий раз фильтр будет уже более осторожным с подобными письмами.
Но если на то пошло, что в принципе мешает использовать антиспам-фильтр(подразумевается, что он установлен на вашем личном компьютере) как персонального карманного цензора?
Предположим, написать расширение для браузера, которое будет работать на основе алгоритмов анти-спама. После некоторой тренировки(подозреваю что её продолжительность будет зависеть от интенсивности веб-серфинга) наш карманный цензор будет в фоне подгружать страницы на которые ведут ссылки текущей страницы, анализировать их содержание, и в случае срабатывания визуально перечёркивать эти ссылки (или даже вовсе удалять, чтобы глаза не мозолили).
Для примера, если я ежедневно читаю новости и меня уже конкретно задолбали сообщения про «кровавую киевскую хунту» и «превращении США в радиоактивный пепел», то я скармливаю фильтру несколько десятков разнородных примеров новостей этой темы. Умничка-фильтр через некоторое время подсчитает, что например такие словосочетания как «радиоактивный пепел» резко повышают шансы статьи на вылет. Или например, что слова «переговоры» и «Путин» в отдельности хорошие, но вот при нахождении их в одном абзаце статья тут же отправляется на свалку.
Можно сделать фильтрацию ещё тоньше, фильтруя только отдельные абзацы или даже фразы, но думаю на данном этапе мне будет достаточноу увидеть грубый proof-of-concept.
Ну так как, существуют ли подобные реализации «карманного цензора»? Может быть вы хотя бы слышали где-то об этом или даже сами написали что-то в этом духе?
Или же даже с чисто теоретической точки зрения подобное использование антиспам-фильтра невозможно, так как их алгоритмы будут слишком тупы, чтобы использоваться в таком качестве? Или же возможно, но для эффективной работы фильтру предвратительно потребуется натаскаться на просто огромном массиве информации?