LINUX.ORG.RU

Дедупликация контента

 , , ,


0

1

Решил озаботиться дедупликацией контента.
Много где можно увидеть, что одна страница доступна по нескольким разным адресам. Например:

  • example.com/content
  • example.com/content/
  • example.com/content/index.html
  • example.com/content/index.html?anything=whatever

Таким образом одна страница имеет бесконечное количество url'ов.
Я решил, что лучше для каждой страницы иметь только один адрес. Сейчас я придумал только два правила: если адрес кончается на /, удалить его, и если адрес содержит ?, удалить его и всё после него.
Не получится ли из этого очередная борьба с ветряными мельницами? Стоит ли также обрезать # и всё после него? Какой редирект правильнее использовать?

★★★★★

Не получится ли из этого очередная борьба с ветряными мельницами?

Получится. В этом нет никакого смысла.

xtraeft ★★☆☆
()
Ответ на: комментарий от umren

Не, сайтик себе решил запилить.

CYB3R ★★★★★
() автор топика

Стоит ли также обрезать # и всё после него?

Средствами веб-сервера не получится. Про canonical тебе правильно сказали.

Black_Roland ★★★★
()

Не получится ли из этого очередная борьба с ветряными мельницами?

Все еще одолевают сомнения? Это все следствия. Источник скорее всего контроллер. Точнее логика контроллера.

Может надо там что-то подправить? Hint: уточнение целей может понизить сложность.

swwwfactory ★★
()

Много где можно увидеть, что одна страница доступна по нескольким разным адресам.

Как ты это делаешь?

anonymous
()

Делай 301 редирект. 302 редирект говорит о том, что страница временно перемещена. И лучше оставляй слеш сзади, люди привыкли к или .html на конце или к /. В твоем случае (статика с директивой index_file) можно оставить заодно и index.html, поисковики это понимают. На запросы с GET-параметрами (example.com/content/index.html?anything=whatever), которые ты не обрабатываешь, можно отвечать 404.

Анкоры # в запросе на сервер не передаются, так что можешь о них не думать.

shimshimshim
()
Ответ на: комментарий от shimshimshim

В твоем случае (статика с директивой index_file)

У меня как раз-таки динамика.
А вот слэш в конце очень сильно зависит от контекста. Например, я считаю, что канонично было бы так:

В первом случае это «как будто бы» файл, а во втором «как будто бы» директория.

CYB3R ★★★★★
() автор топика
Ответ на: комментарий от CYB3R

Если у тебя динамика, то откуда index.html?

Насчет того как каноничнее, на мой взгляд одно из двух - либо слеш в конце, либо .html, но это чисто мое мнение. Обратный раутинг в джанго со мной согласен и возвращает url со слешем на конце.

shimshimshim
()
Ответ на: комментарий от shimshimshim

Если у тебя динамика, то откуда index.html?

Это просто пример был. Но многие даже с динамикой добавляют суффикс .html. Наверное, думают, что пользователю так привычнее.

CYB3R ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.