Решил озаботиться дедупликацией контента.
Много где можно увидеть, что одна страница доступна по нескольким разным адресам. Например:
- example.com/content
- example.com/content/
- example.com/content/index.html
- example.com/content/index.html?anything=whatever
Таким образом одна страница имеет бесконечное количество url'ов.
Я решил, что лучше для каждой страницы иметь только один адрес. Сейчас я придумал только два правила: если адрес кончается на /
, удалить его, и если адрес содержит ?
, удалить его и всё после него.
Не получится ли из этого очередная борьба с ветряными мельницами? Стоит ли также обрезать #
и всё после него? Какой редирект правильнее использовать?