LINUX.ORG.RU

Новый сайт о пакетах OpenBSD — ports.su

 ,


0

1

Несколько лет назад появился первый сайт о пакетах OpenBSD — ports.openbsd.nu, ныне известный как OpenPorts.se. У OpenPorts.se есть одна проблема: поиск очень часто не выдаёт никаких результатов (т.к. по-умолчанию идёт исключительно по названию пакетов, не включая описания), а поиск через все поисковые системы заблокирован через robots.txt.

Представляем вашему вниманию ports.su. Проект является статическим сайтом на базе ports-readmes, и, в отличии от OpenPorts.se, обладает полнотекстовым поиском через Google (проиндексированы почти все 8 тыс страниц). Так как используются оригинальные интерпретаторы и официальная база данных OpenBSD ports тов. Marc Espie — sqlports — то у ports.su отсутствуют ошибки интерпретации, и каждый пакет может быть представлен сразу в нескольких категориях, и дополнительно имеет список всех зависимостей от других пакетов. Исходные скрипты сайта доступны на GitHub.

Подробности на undeadly.org

>>> http://ports.su/



Проверено: beastie ()
Последнее исправление: beastie (всего исправлений: 1)

Ответ на: комментарий от cnst

Яндекс.Метрика

Установил метрику без JavaScript, картинкой (то, что было между <noscript>), посещения на https://metrika.yandex.ru/list/ показываются, но на https://metrika.yandex.ru/stat/dashboard/?counter_id=21195115 — «Нет данных за выбранный период.», и даже https://metrika.yandex.ru/stat/tech/javascript/?counter_id=21195115 пустует.

cnst
() автор топика
Ответ на: Яндекс, Гугл от cnst

Не особенно понятно, как в Яндексе представляется использование site-search (Яндекс.Поиск для сайта, http://site.yandex.ru/) для новых сайтов, если никакой индексации для новых сайтов не предусмотрено.

можешь принудительно добавить страницы в поиск через site.yandex.ru, но в общей выдаче (на ya.ru) сайта не будет.
а для твоего кастом поиска - хватит.

xtraeft ★★☆☆
()
Ответ на: комментарий от winddos

Да нету для яндекса никакой проблемы с фильтрацией SEO спама...

еще как есть.
дорвеев полно, а нормальные сайты проиндексировать - та еще задача

xtraeft ★★☆☆
()
Ответ на: комментарий от cnst

Есть какие-либо официальные заявления по этому поводу? В данный момент разумеется полно посетителей идёт с ЛОРа и undeadly.

заявления есть, но в твоем случае метрика никакой пользы не даст.

Есть ли возможность использовать метрику без JavaScript?

нет

xtraeft ★★☆☆
()
Ответ на: комментарий от xtraeft

И как там это добавляется? У меня около 8 тыс. страниц на ports.su. Там на site.yandex.ru только написано, что имеется возможность приоритетного индексирования всего 100 страниц в сутки.

cnst
() автор топика
Ответ на: комментарий от xtraeft

заявления есть, но в твоем случае метрика никакой пользы не даст.

а в каких — даст?

у меня с органического Гугла посетители тоже идут.

cnst
() автор топика
Ответ на: комментарий от cnst

значит никак.

а в каких — даст?

если бы у тебя был старый древний жирный сайт с хорошей историей в яндексе, метрика теоретически дала бы плюс.

вообще, можешь попробовать написать в поддержку яндекса http://webmaster.yandex.ru/messages/
предварительно добавив сайт в эту панель, но с вероятностью 99.99% тебе ответит бот шаблоном «развивайте сайт и все будет хорошо»

xtraeft ★★☆☆
()
Ответ на: комментарий от cnst

Разумеется у них никаких проблем нет, они просто нифига ничего нового не индексируют.

Проблема твоего сайта никак не касается конкретно SEO-фигни.

Просто яндекс не очень любит индексировать всякие зеркала и файлопомойки, а твой сайт похож на такую файлопомойку или зеркало репозитория.

Можешь себе представить, что будет, если будет размещено целых несколько предложений текста на русском/английском? :-)

Зачем?

Затем, чтобы изменить входные параметры по которым сайт попадает в индекс или не попадает. Можешь попросить в нем YandexBot индексировать медленнее.

И какие приоритеты выставлять?

Согласано иерархии.

В чём смысл?

Смысл в том, чтобы не отдавать ботам не соответствующий стандарту sitemap.

Это уже очень неправильный и необоснованный совет, сайтмапы могут быть до десяти мегабайтов, так что здесь у меня вообще крошки.

Могут быть != яндекс так скушает. По идее можно ему и персональный сайтмап сделать, правда боюсь он его проигнорирует.

winddos ★★★
()
Ответ на: комментарий от xtraeft

заявления есть, но в твоем случае метрика никакой пользы не даст.

Ну вот не знаю, мне осенью это помогло всунуть в индекс каталог магазина в тысяч 7 страниц. В индексе конечно он уже был, но страниц 100 от силы.

Собственно все советы выше это то, что с моей точки зрения дало результат при засовывании этого магазина в индекс.

winddos ★★★
()
Последнее исправление: winddos (всего исправлений: 1)
Ответ на: комментарий от winddos

ну значит скорее всего он и так бы залез со временем.
а в этом случае то вообще 0 страниц же пока, как я понял

xtraeft ★★☆☆
()

В OpenBSD нет даже поиска по портам и походится для этого сайт делать?

.su

некрофилия некрофилия
моя изнурённая некрофилия
rtvd ★★★★★
()

Какой толк от ориентированности дистрибутива на безопасность, если разработчики не отвечают за порты?

full_access
()
Ответ на: комментарий от rtvd

Ну вообще-то есть и эта штука на нем основана как раз.

anonymous
()

Господа, а никто не кинет в меня маном о прикручивании UTF-8 в openbsd 5.3? И вообще, как там хоть посмотреть используемую кодировку?

Stage1 ★★
()
Ответ на: комментарий от Stage1

Прикручивании куда? Вобще не знаю в чём у людей проблемы… в X11 всё так же как и везде. Разве что в консоль, IIRC прикручивать не собираются, что в принципе понятно — оно просто не нужно и неоправданно усложняет код.

как там хоть посмотреть используемую кодировку

echo $LC_CTYPE

PS: у нас таки есть wiki, если кто не знает.

beastie ★★★★★
()
Последнее исправление: beastie (всего исправлений: 4)
Ответ на: комментарий от science

скорее всего сетевуху потянет

хотя на некоторых реалтеках были глюки, но вроде на 8111 у меня ставилось без проблем

видюха скорее всего VESA

Slackware_user ★★★★★
()
Ответ на: комментарий от xtraeft

В поддержку писал в середине марта, когда Гугл уже почти закончил весь сайт индексировать:

cnst: Добавил сайт в Гугл и Яндекс в первый день создания. Гугл уже 5,5 тыс страниц проиндексировал и выставляет в поиск (всего на сайте 8 тыс страниц, Гуглбот до сих пор индексирует), а Яндекс до сих пор даже заглавную в индексе не имеет.

Яндекс: Проанализировав страницы Вашего сайта, наши алгоритмы приняли решение временно не включать его в поиск. На решение алгоритма может оказать влияние наличие страниц, предназначенных для робота-индексатора, а не для чтения пользователями, наличие SEO-ссылок, размещение неуникальной информации и другие факторы.

cnst: У вас какой-то неправильный алгоритм. На сайте нет никакого спама (и не намечается), даже нет никакой рекламы, все 8 тыс страниц являются статикой (всем клиентам одно и то же выдаётся), и не являются прямым зеркалом какого-либо существующего ресурса.

cnst: Ваш робот вообще только главную страницу до сих пор загружал. Исключение из поиска является ошибкой.

cnst
() автор топика
Ответ на: комментарий от winddos

Можешь попросить в нем YandexBot индексировать медленнее.

Зачем? Он вообще не индексирует, зачем просить ещё медленнее неиндексировать?

Согласано иерархии.

Какой ещё иерархии? Каждый порт — как порт. Там нет никакой иерархии важности документов.

Смысл в том, чтобы не отдавать ботам не соответствующий стандарту sitemap.

RTFM. Всё у меня стандарту соответствует. По стандарту, вообще весь сайтмап может быть обычным текстовым файлом!

персональный сайтмап сделать

Ну это уже всякие догадки и хаки. Один мегабайт — очень нормальный сайтмап, он вообще у нормальных клиентов в 57169 байт получается, т.к. отдаётся закодированным в gzip, 474563 байт будет только если у вас нет Accept-Encoding, так что неизвестно, где у вас один мегабайт получился. 60KB — очень маленький размер, меньше делить будет просто глупо.

Здесь не в сайтмап проблема. Структура сайта — главная страница со списком категорий, в каждой категории — список всех портов категории. Т.е. вообще всего два уровня; фактически, сайтмап здесь вообще, по сути, не обязателен. Но помогает в случае Google, т.к. он сразу видит появление новых страниц.

Я думаю, что, возможно, следует указать changefreq для портов в год (идеально будет полгода или три--четыре месяца, но такой опции нет), а для категорий в месяц (или получать дату из директории с портами).

cnst
() автор топика
Ответ на: Яндекс.Метрика от cnst

Кстати, вроде наконец метрика заработала, без JavaScript!

У Яндекса, правда, переводчики хромают:

Часовой пояс для расчёта статистики:

<option value=«America/Los_Angeles»>(GMT-08:00) Тихуана, Нижная Калифорния</option>

<option value=«America/Denver» selected=«selected»>(GMT-07:00) Тихоокеанское время (США и Канада)</option>

Считая, что Los Angeles находится в Мексике, а Denver на побережье тихого океана. Рассмешили! :-) Сам Денвер, кстати, в списке отсутствует. :-)

cnst
() автор топика
Ответ на: комментарий от cnst

в этом весь убогий яндекс, увы. и ничего тут не поделаешь :(

xtraeft ★★☆☆
()
Последнее исправление: xtraeft (всего исправлений: 1)
Ответ на: комментарий от cnst

количество посетителей ports.su по IPv4 и IPv6, анализ access.log

В данный момент разумеется полно посетителей идёт с ЛОРа и undeadly.

Кстати, если кому интересно, с начала мая:

Cns# cut -d" " -f 11 /var/www/logs/ports.su/ports.su.access.log | \
grep -v '^"http://ports.su/' | sort | cut -f1 -d"?" | uniq -c | sort -rn | head; date
7956 "-"
 425 "http://www.linux.org.ru/news/bsd/9132500"
 294 "http://undeadly.org/cgi
 283 "http://undeadly.org/"
 161 "http://www.google.com/url
  93 "http://www.undeadly.org/"
  76 "https://www.google.com/"
  73 "http://www.undeadly.org/cgi
  68 "http://www.linux.org.ru/news/bsd/9132500
  51 "http://www.google.com/search
Tue May  7 09:27:04 PDT 2013

И статистика как на http://stackoverflow.com/questions/15170052/overall-page-views-driven-by-a-re...

Cns# cat /var/www/logs/ports.su/ports.su.access.log | \
cut -d " " -f1 | sort | uniq | sed "s#.*\..*#.#g;s#.*:.*#:#g" | \
sort | uniq -c ; echo ipv4 and ipv6 unique hosts, summary ; date                  
2015 .
  74 :
ipv4 and ipv6 unique hosts, summary
Tue May  7 09:38:51 PDT 2013

Cns# cat /var/www/logs/ports.su/ports.su.access.log | \
cut -d " " -f1 | sort | uniq | sed -E "s#^(([0-9a-f]+[.:]){3}).*#\1#g" | \
uniq | sed "s#.*\..*#.#g;s#.*:.*#:#g" | sort | uniq -c ; \
echo ipv4 and ipv6 unique IPv4/24 and IPv6/48 subnets, summary ; date
1748 .
  66 :
ipv4 and ipv6 unique IPv4/24 and IPv6/48 subnets, summary
Tue May  7 09:38:56 PDT 2013

Т.е. 2015 уникальных посетителей — IPv4, 74 — IPv6 (74 ÷ 2015 = 3,7%).

Уникальных сетей: 1748 уникальных IPv4/24, 66 — IPv6/48 (66 ÷ 1748 = 3,8%), с начала мая.

Т.е. 4% IPv6 среди посетителей.

cnst
() автор топика

IPv6 on linux.org.ru vs. undeadly.org

И по linux.org.ru:

Cns# fgrep linux.org.ru /var/www/logs/ports.su/ports.su.access.log | \
cut -d " " -f1 | sort | uniq | sed "s#.*\..*#.#g;s#.*:.*#:#g" | \
sort | uniq -c ; echo ipv4 and ipv6 unique hosts, summary ; date   
 479 .
   8 :
ipv4 and ipv6 unique hosts, summary
Tue May  7 10:11:53 PDT 2013

Cns# fgrep linux.org.ru /var/www/logs/ports.su/ports.su.access.log | \
cut -d " " -f1 | sort | uniq | sed -E "s#^(([0-9a-f]+[.:]){3}).*#\1#g" | \
uniq | sed "s#.*\..*#.#g;s#.*:.*#:#g" | sort | uniq -c ; \
echo ipv4 and ipv6 unique IPv4/24 and IPv6/48 subnets, summary ; date
 477 .
   8 :
ipv4 and ipv6 unique IPv4/24 and IPv6/48 subnets, summary
Tue May  7 10:12:17 PDT 2013

8 ÷ 477 = 1,7% IPv6. :-)

А по undeadly:

Cns# fgrep undeadly.org /var/www/logs/ports.su/ports.su.access.log | \
cut -d " " -f1 | sort | uniq | sed -E "s#^(([0-9a-f]+[.:]){3}).*#\1#g" | \
uniq | sed "s#.*\..*#.#g;s#.*:.*#:#g" | sort | uniq -c ; \
echo ipv4 and ipv6 unique IPv4/24 and IPv6/48 subnets, summary ; date
 647 .
  42 :
ipv4 and ipv6 unique IPv4/24 and IPv6/48 subnets, summary
Tue May  7 10:17:02 PDT 2013

42 ÷ 647 = 6,5% IPv6. :-)

cnst
() автор топика
Ответ на: комментарий от xtraeft

Свершилось! Целая заглавная страница теперь доступна в поиске Яндекса! Ещё вчера не было ни одной страницы!

Возможно метрика действительно помогла. 174 посетителя за полсуток.

Кстати, установил без JavaScript, вроде работает нормально. Думаю, что оставлю, т.к. особо не мешает, а информация может быть полезна.

cnst
() автор топика
Ответ на: комментарий от cnst

Ну это уже всякие догадки и хаки.

Извини, просто вся работа с поисковиками строится на догадках и хаках. Я лишь перечислил парочку идей которые возможно могут помочь.

Поэтому если хочешь чтобы твои сайты были в индексе и получали хорошие позиции, то эксперементируй. Можешь кстати meta-теги прописать и хотя бы в title запихать нормальный текст. Яндекс использует title для вывода сайта в результатах, или если оно короткое, то description из meta.

winddos ★★★
()
Последнее исправление: winddos (всего исправлений: 2)
Ответ на: комментарий от winddos

Ну это уже как раз пахнет всякими SEO уловками спамеров, я так могу и позиции в Google потерять.

От сайта всё равно никакой прямой прибыли нет и не намечается, так что если Яндекс индексировать весь сайт не хочет, это его проблемы. Разбивать 60 килобайтный файл сайтмапа смысла ну никакого вообще просто нет, многие головные страницы и того больше весят.

От Гугла трафик уже давно идёт, Яндекс как-нибудь подкатится; возможно, Метрика поможет, а коль нет, то и х с ним. Метрика пока сама работает, то я её оставлю, вне зависимости от индексации.

cnst
() автор топика
Ответ на: комментарий от cnst

Ну это уже как раз пахнет всякими SEO уловками спамеров, я так могу и позиции в Google потерять.

Что это? Добавление текста в Title или Meta-теги? Не смешно. У гугла и яндекса есть гайдлайны о том что он учитывает и использует:
http://help.yandex.ru/webmaster/

winddos ★★★
()
Ответ на: комментарий от winddos

Ты эту фразу из контекста вынул. Я про сайтмап говорил.

А добавлять всякий ненужный и дублируемый текст куда попало смысла не вижу, Гугл и так отлично индексирует сайт, а Яндексу это всё равно вряд ли погоду сделает.

cnst
() автор топика
Ответ на: комментарий от cnst

Ты эту фразу из контекста вынул. Я про сайтмап говорил.

Извиняюсь, но на самом деле это к black seo никаким боком не относится. Вообще у себя на сайте можешь делать что угодно, сделать хуже можно только каким то жесктим клоакингом.

А добавлять всякий ненужный и дублируемый текст куда попало смысла не вижу, Гугл и так отлично индексирует сайт, а Яндексу это всё равно вряд ли погоду сделает.

Есть гайдлайны и «правила хорошего тона», meta-теги всего лишь один из них.

Судя по всему тебе все равно, переубеждать тебя в чем то нет у меня задачи нет, удачи оставаться.

winddos ★★★
()
Ответ на: комментарий от winddos

С правилами хорошего тона знаком, и согласен, что следует делать meta, если возможно. Сделаю на главной странице, скорее всего, просто пока руки не дошли, т.к. это просто был fork с самого начала. На главной странице, согласен, description должен быть почти всегда, но не для включения в индекс Яндекса, а вообще.

Но каждому порту делать, как мне кажется, бессмысленно. Поисковые системы должны быть smart enough для определения описания страниц, когда у меня целых 8 тыс страниц от одного шаблона. Там каждая страница обычно по 2—3KB, делать description как-то глупо, всякую пургу в title вставлять тоже смысла не вижу. Там ведь ещё в поисковых системах размер страниц учитывается, так что маленький размер наоборот лучше для SEO.

Но за комментарии и заботу — всем спасибо. :-)

cnst
() автор топика
Ответ на: комментарий от Slackware_user

К xterm.
Потому что количество движений по устаканиванию пульсаудио и системд превысило триггер. Мне легче мигрировать, чем противостоять глюкам, которые создаются из воздуха.

Stage1 ★★
()
Ответ на: комментарий от Stage1

а кто мешает поставить генту и 1 раз настроитьв ней пульсу?

и вместо system можно openrc

xterm я не уверен что вообще поддерживает unicode

urxvt тянет точно.

Slackware_user ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.