LINUX.ORG.RU

Реально ли траффик сайта использовать для оценки качества поиска?

 


1

2

При настройке поиска надо как-то оценивать результат. То есть, прогонять пачку эталонных запросов и смотреть, стало лучше или хуже. Меня интересует, насколько реально для подобного использовать траффик сайта.

1. С какого количества юзеров (поисковых запросов?) такое вообще начинает работать и выдавать полезный результат?

2. Какой интерфейс для этого делают? На память приходит только «х» рядом с результатами, чтобы убирать плохие.

3. Как учитывать что данные, по которым ищем, меняются?

Понятно, что можно заморозить базу, и посадить людей размечать за деньги. Но меня интересуют нанотехнологии, их сложность, и условия при которых они начинают работать.

★★★★★

Дабы не начинать новую тему спрошу тут: реально ли качество поиска использовать для оценки траффика сайта?

actionpattern
()

Нанотехнологии не нужны,ётехнологии рулез

anonymous
()

траффик

http://ru-minecraft.ru/uploads/forum/images/2013-08/1375933414136517220812345...

По делу - попробуй опираться на:

1) Частоту перехода на вторую или больше страницу поиска (если пользователь находит на первой то, что ему нужно - поиск работает хорошо)

2) Количество времени, которое посетитель провёл на странице, на которую перешел с результатов поиска (если он там засиделся - значит нашел что нужно)

Калибруешь функцию от этих двух переменных на тестовых данных, а затем наблюдаешь за её ростом или падением.

r_asian ★☆☆
()
Ответ на: комментарий от r_asian

тебе бы нервишки подлечить, денег на психиатра одолжить, человек-робот?

anonymous
()
Ответ на: комментарий от r_asian

Калибруешь функцию на тестовых данных, а затем наблюдаешь за её ростом или падением.

24-й калибр сойдет?

anonymous
()
Ответ на: комментарий от r_asian

Слушай, а у тебя блестящие идеи по траффику, новаторские, можно сказать. Может зря ты тут тему палишь, может лучше запатентовать и гуглу продать? Глядишь, и на психиатра наскребешь

anonymous
()

А какую точность ты хочеш от своего поиска? Допустим ты хочеш 80%, тогда левых у тебя 20%. Теперь если 20% от твоего «траффика» это больше 1000 - мошеж попробовать. Если сможеш выделить критерии оценки, такого обьема вполне должно хватать. Ну и как можно раньше начинай сплит-тесты на каждое новое изменение.

З.ы. 1к выбрано каминимум, при котором погрешность в 10% (от этого обьема) сама по себе может быть проанализирована хоть както.

genryRar ★★
()
Ответ на: комментарий от genryRar

А какую точность ты хочеш от своего поиска?

Я не занимаюсь поиском, поэтому не особо ориентируюсь в терминологии. Не знаю как сформулировать точность.

Теоретически, надо придумывать критерии оценки, набирать эталонные запросы и потом как-то их оценивать. Заниматься этим естественно не хочется.

Хочется чтобы у юзера была кнопка «это плохой результат», или если он перешел по ссылке, то считать что результат скорее полезен чем нет. Вопрос в том, возможно ли это в принципе, или устойчивую систему получить нельзя. Если возможно, то какие объемы данных нужны, чтобы все отбалансировалось.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

ну можно сформулировать точность как процент поисковых запросов, на которые твой алгоритм выдал выборку, содержащую в первой пятерке (если есть ранжирование по релевантности) искомую человеком сущность. Тобеш то, на что он перейдет и почитает. Да, эта сущность может не решить стоявшую перед ним задачу (например для сервиса типа q&a найденная тема может не содержать ответа для конкретного пользователя), но она должна соответствовать именно тому запросу, который он вбил.

Такая формулировка сильно упрощена, но если не хочется вдаваться в тонкости, то ее вполне хватит чтобы посчитать трафик, необходимый для «доверенного» тестирования.

Ну а как именно ты это реализуешь - через кнопку «левых» или через сбор статистики поведения - это отдельный вопрос. при упрощенной формулировке точности к трафику отношения не имеет.

А вообще не очень понятна твоя задача. В наше время писать свой собственный поиск без желания вдаваться в тонкости - странное решение. Почему бы не использовать готовый инструмент?

genryRar ★★
()
Ответ на: комментарий от genryRar

содержащую в первой пятерке

Только не очень понятно, как в свою очередь первую пятерку определять. Допустим у меня 20 похожих тем, какие из них «более похожи, 5 лучших»?

А вообще не очень понятна твоя задача. В наше время писать свой собственный поиск без желания вдаваться в тонкости - странное решение. Почему бы не использовать готовый инструмент?

Возможно я просто не знаю что есть готовые решения, т.к. не знаком с темой. С точки зрения потребителя, я знаю что есть sphinx search, и «всё остальное очень медленное». Соответственно, бродят мысли что-то со сфинксом сделать. Что-нибудь такое, что не встанет мне слишком дорого по времени и железу.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

Только не очень понятно, как в свою очередь первую пятерку определять. Допустим у меня 20 похожих тем, какие из них «более похожи, 5 лучших»?

А это какраз и есть ранжирование. Тыже при поиске както учитываеш коэффициент похожести (релевантность). Обычно по нему и ранжируют. Например если ты просто ичешь темы по совпадающим словам из запроса, то кол-во совпавших слов и есть твоя релевантность. Но это самый простой вариант, в реальности релевантность зависит и от других факторов.

А готовых инструментов существует очень много. Из самых простых в использовании и популярных всякие встраиваемые от гугла и подобных.

genryRar ★★
()
Ответ на: комментарий от genryRar

По-моему у тебя рекурсия - оценивать ранжирование с помощью этого самого ранжирования.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

Нет.
1) Ранжирование это лишь один из аспектов поиска. По сути - сортировка по релевантности. Есть не везде, гдето просто выдают все скопом и сортируют по дате. Что есть релевантность для конкретного алгоритма поиска - опять же отдельный вопрос.
2) Оценивать ранжирование через ранжирование я и не предлагал вообщето. Речь шла о оценке результатов поиска при условии, что механизм ранжирования (если он есть) детерминирован и основан на некой модели (алгоритмической или математической). Иными словами если ты ранжируеш через вхождение весомых слов, то этот механизм полностью предсказуем и описан. И если в ходе тестирования выясняется, что он работает не корректно (собранная статистика говорит, что пользователи выбирают результаты, не входящие в первую пятерку) то тут уже встает вопрос о корректности всего алгоритма в целом. Что собственно и требовалось получить. Меняем механизм поиска (в том числе и ранжирования) и запускаем сплит тест.

genryRar ★★
()
Ответ на: комментарий от genryRar

Теперь понял. То есть по активности по ссылке оцениваем, полезна ли она, и если полезна - как далеко в выдаче находилась.

А на глаз можно сказать, сколько тысяч сэмплов надо накопить, чтобы отсеять шум и выделить пул достоверных запросов/результатов?

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

я же тебе привел формулу.
Если смущает «точность» то просто возьми ее в районе 80%. тобешь в 80% случаев человек, воспользовавшись твоим поиском найдет искомую тему на первой странице выдачи/в первой пятерке. Под искомой здесь понимается не та которую он там себе в голове хотел найти, а та, которая обьективно соответствует поисковому запросу с максимальной точностью.
теперь (100-80)/100*(траффик_на_странице_поиска)>>1000
как только накопишь такое кол-во данных, можно запускать анализ. что касается сбора статистики поведения - из личного опыта советую брать с избытком, даже то, что на первый взгляд не понадобится при анализе.

кстати после того, как соберешь данные, неполенись натравить паукана, чтобы он все эти поисковые запросы прогнал через гугловый поиск по твоему сайту. и считай дельту между позицией той темы, на которую перешел в итоге пользователь у себя и у гугла.

genryRar ★★
()
13 октября 2017 г.

Страницы результатов поиска на сайте имеют фиксированные url. Можно: а)средствами гугл аналитики настроить цели на эти страницы и отслеживать количество переходов на них + время проведенное на этих страницах. или б) есть стандартная функция настройки поиска по сайту и отслеживание его в гугл аналитике. Это вообще решит все вопросы, т.к. возволит отслеживать популярность (в виде количества кликов), время и т.п. И в рамках этих параметров манипулировать самими запросами - выводить более популярные выше, менее популярные ниже и т.п. в) если совсем по злому, можно также вывести блоки популярных запросов на сайте, скормить их урл гугл боту,перелинковать между собой, разметить семантически и отслеживать их динамику роста в органической выдаче гугл - т.е. сколько по ним перешли на сайт. Другими словами, пользователь заходит на сайт, что-то ищет, генерирует запрос, этот запрос как отдельный урл отдается поисковику и в виде семантически размеченной сущности призван опять атки привлечь пользователя, но уже через органическую выдачу. Ну а внутренние клики по популярным запросам вкупе с внешними переходами с поисковых систем (а это уже будет оценка на основе органического трафика) вполне позволят сделать искомую оценку эффективности настпройки.

kakoban
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.