LINUX.ORG.RU
ФорумTalks

Регексп на порн


0

0

Задача: написать систему регекспов (образно говоря) которая бы по доменному имени выдавала ответ - порносайт это или нет. Ну например, http://www.porn.com с вероятностью 99.(9)% будет порнухой. А вот скажем http://www.wh.gov - не факт.

Замечу, ведение большого каталога порнодоменов не подходит. Нужен самодостаточный автомат с удовлетворительным рейтом попадания.

PS: Готовые решения приветствуются.


доменное имя не обязательно релевантно контенту размещаемого на нем сайта

Deleted
()

Слишком много хотите из одного урла выжать. Фигня получится.

melkor217 ★★★★★
()
Ответ на: комментарий от Deleted

О, К.О. в треде.
На самом деле тут беда даже не только в этом. А ещё в том, что слова в доменных именах никак не разделены.
В итоге какой-нибудь безобидный идиотский домен вида tocropornottocrop.com будет зарезан как содержащий слово «porno». :-)

Ramen ★★★★
()

вспомнилась история о заблоченном доступе к Википедии как _пед_офильскому сайту.

Sphinx ★★☆☆
()

Посмотрел куда у нас в локалке люди лазают. Предположим, eropics-online еще можно отловить регекспами, но вот например с redtube будут проблемы. Тут уже ИИ нужен.

yirk ★★★
()

Граждане, мне же не 100% заверенное натариусом заключение, что доменное имя ведет на порнуху. Нужна лишь прикидочная оценка, не более. Один из факторов, который бы позволял потом уже сделать то или иное заключение.

Вон, банально, набрать top10 porno sites в гугле - ссылок море. И по ним как минимум 40-50% доменных имен так или иначе связаны с porn, xxx и так далее. Вопрос скорее чтобы взять готовую базу популярных характерных доменов и из них вытянуть общую часть. Собственно владельцы порносайтов тоже не дураки, и стараются в имени домена более-менее явно указать, что на нем хранится. Ну не все, да, но оч многие.

bibi
() автор топика

antiporn.com тоже порнуха?

mono ★★★★★
()
Ответ на: комментарий от PolarFox

Который будет ходить по ссылкам.

Если ходить по ссылкам то никакого ИИ не нужно, чтобы определить порнуха там или нет. 99% будут выдавать в тайтле или кейвордах всю свою подноготную. Но ходить, проверять каждый домен - нет, это слишком накладно.

bibi
() автор топика
Ответ на: комментарий от qwertyk

поддерживаю

еще помоему opendns умеет лочить адалт-ресурсы

Deleted
()
Ответ на: комментарий от bibi

некоторые домены из топа гугла по porn:

keezmovies.com

tnaflix.com

pichunter.com

yobt.com

сомневаюсь что по этим доменам можно составить какое то заключение

на мой взгляд единственный относительно точный вариант - это скачивать хотя бы <title></title> и грепать его на список стоп-слов

Deleted
()
Ответ на: комментарий от Deleted

>на мой взгляд единственный относительно точный вариант - это скачивать хотя бы <title></title> и грепать его на список стоп-слов

скачать&бесплатно&видео.

dikiy ★★☆☆☆
()

Нерелевантно.

Не верю что это реализуемо достаточно хорошо. Вот например redtube, в доменном имени ничего примечательного, а содержание...

Camel ★★★★★
()
Ответ на: комментарий от dikiy

>Я думаю *sex*|*porn* будет обладать 95% надежностью.

и будет пропускать наверное столько же доменов с адалт контентом.

скачать&бесплатно&видео

как правило для se-оптимизации в титле сайта/страницы указывается более узкое словосочетание или их список

Deleted
()
Ответ на: комментарий от bibi

Тут 2 варианта:
1. тебе нужно ограничивать сотрудников - Вопрос: А тебе не пох чем они занимаются? Пусть хоть обкончаются, главное чтоб не на клавиатуру и ups.
2. нужно ограничить детей - ограничив все популярные и типичные сайты, останется множество извращенческих, фетиш, гей и т.п. сайтов. Куда естественно любознательность и ломанётся. Оно вам надо?

anonymoos ★★★★★
()
Ответ на: комментарий от anonymoos

Тут 2 варианта:

Нет, тут вариантов миллион и мой не входит в указанные два, уж пардон.

Ограничивать сотрудников - поручите это макакам. Ограничивать детей - есть более действенные способы.

bibi
() автор топика

кстати, вот у китайских магазинов домены это трындец полный.

Блин, хотел пример подобного привести, но даже не запомнил как он начинается :(

Correctnoe_imya_polzovatelya ★★★★★
()
Ответ на: комментарий от Sphinx

>вспомнилась история о заблоченном доступе к Википедии как _пед_офильскому сайту.

В бытность мою админом ко мне пришли пользователи и удивлялись, почему перестал работать доступ к сайту, типа transexpo.com :)

...

А ещё помню, как форум sukhoi.ru долго превращал «истребитель» в «истр***тель» :)

...

В L2Fortress наш дефолтовый мат-бан-чат работал по такому регекспу: http://trac.balancer.ru/fortress/browser/trunk/java/config/mats.cfg

KRoN73 ★★★★★
()

А чем готовые списки не устраивают? Хочется велосипед на пяти колесах, но теплый и свой?

shahid ★★★★★
()
Ответ на: комментарий от dikiy

>>Ложные срабатывания будут.

не страшно.

Тогда можно резать по маске * и не париться, надёжность 100%.

Ramen ★★★★
()
Ответ на: комментарий от dikiy

> > Задача: написать систему регекспов (образно говоря) которая бы по доменному имени выдавала ответ - порносайт это или нет. Ну например, www.porn.com с вероятностью 99.(9)% будет порнухой. А вот скажем www.wh.gov - не факт.

Я думаю *sex*|*porn* будет обладать 95% надежностью.

http://www.msexchange.com/ ?

Впрочем, я согласен.

sex xxx porn teen tits adult babes softcore hardcore pups tetki lesbian lolita fuck

ansky ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.