LINUX.ORG.RU

Почему в некоторых сайтах наименование классов рандомные и бессмысленные?

 , , , ,


1

2

Хотел распарсить сайт cian.ru. А там все имена классов в основном как будто сгенерированные, никакого смысла нету в их именах. Смотрится как будто хеш-суммы. Это что за подход, какую методологию он использует? Фото

Deleted

может специально против таких умельцев типа тебя?

вообще, у гугла на страницах регистрации, логина и им подобных такое видел

eternal_sorrow ★★★★★
()
Последнее исправление: eternal_sorrow (всего исправлений: 1)
Ответ на: комментарий от eternal_sorrow

может специально против таких умельцев типа тебя?

может может... а по топику ответить можешь?

Deleted
()

Защита от парсеров скорее всего. Понаблюдай — они еще эти хешики менять время от времени должны, чтоб твой парсер спотыкался.

deep-purple ★★★★★
()

Судя по скрину там к именам классов добавлены статические суффикс и постфикс. Так-себе защита

MrClon ★★★★★
()
Ответ на: комментарий от deep-purple

Дак я и понаблюдал. Где-то штук 100 страниц пропустил через Scrapy. Пока что сайт молчок, всё успешно парсится... Ну я так просто предположил что это все тянется из базы. В данном случае C6e8ba5398 - идентификатор объекта, остальные поля адрес, основная информация, агент и т. д. Подтягиваются динамически или хз? Мне конечно же больше всего интересует та методология которая они используют? Я конечно же немного нагуглил «random class name html» но гугл не выдает релевантные результаты.

Deleted
()

Какую нафиг методологию? Это чтобы сейт не скрейпили, или чтобы рекламу не вырезали или чтобы ломать нежелательные дополнения.

slovazap ★★★★★
()
Ответ на: комментарий от Deleted

Не важно из чего он генерируется, важно что это префикс класса. И как много раз тебе уже сказали — скорее всего такая защита от граббинга. Ну, хреновая, что поделаешь, радуйся.

deep-purple ★★★★★
()

Просто изоляция стилей на уровне компонентов.
Для простого парсинга тебе хватит XPath`ов без привязки к классам\айдишникам.

Deleted
()

Это защита от парсинга, при том плохая.

peregrine ★★★★★
()

обфускация. байты экономят

tz4678 ★★
()
Ответ на: комментарий от Deleted

Девтулзы хромиума ЕМНИП умеют получать уникальный селектор выбранного элемента.

Singularity ★★★★★
()

Да много раз видел такое в выходном коде реакта и прочего - чтобы не могли вырезать элементы из структуры сайта всякими баннерозками типа uBlock. Ну, и против scrapy тоже =)

menangen ★★★★★
()
Последнее исправление: menangen (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.