Помогите сочинить запрос для подсчета ссылок в текстах

0

2

Есть посты на форуме. Хочется посчитать статистику по доменам. Можно это сделать «приблизительно» без скрипта, на чистом сиквеле?

- в пределах одного поста повторы можно считать как угодно (можно учитывать, можно нет, не принципиально)
- для разных постов одинаковые домены надо просуммировать
- отбросить домены, на которые меньше 100 ссылок.

Мне не нужна великая точность, хватит «плюс-минус лапоть». Просто хочу поглядеть самые топовые сайты.

Ссылка

← Компиляция x32 и x64 приложений в одном Лазарусе

miu — система одновременного кодирования, документирования и тестирования →

Делаешь mysql выборку, используя ключевое слово like для определения ссылок.
Затем считаешь кол-во уникальных значений.

Вуаля. Ну да, придется тебе подшаманить самостоятельно над запросом.

reprimand ★★★★★
(07.08.15 09:26:52 MSK)

Ответ на: комментарий от reprimand 07.08.15 09:26:52 MSK

Мне бы готовый запрос.

Vit ★★★★★
(07.08.15 10:01:46 MSK) автор топика

Ответ на: комментарий от Vit 07.08.15 10:01:46 MSK

lor=> select   split_part(unnest(regexp_matches(text, 'https://[^ ]+')), '/', 3), count(1)
lor-> from     post
lor-> where    text ~* 'https?://'
lor-> group by split_part(unnest(regexp_matches(text, 'https://[^ ]+')), '/', 3)
lor-> having   count(1) > 100;

  split_part  | count 
--------------+-------
 www.avito.ru |   300 
 mail.ru      |  3000 
(1 row)              

lor=>

anonymous
(07.08.15 10:16:14 MSK)

Ответ на: комментарий от anonymous 07.08.15 10:16:14 MSK

Спасибо добрый человек! Судя по выхлопу это именно то что мне надо!

Vit ★★★★★
(07.08.15 12:48:15 MSK) автор топика

Ответ на: комментарий от Vit 07.08.15 12:48:15 MSK

Писал на скорую руку, что видно по подделанному с ошибками выводу, но ты учти, что это pg. В ОП не было требований к СУБД, поэтому я выбрал ту, которую захотел.

anonymous
(08.08.15 01:37:29 MSK)

Ответ на: комментарий от anonymous 08.08.15 01:37:29 MSK

Не принципиально, дальше было понятно как переделывать. Вот что получилось:

SELECT
  SUBSTRING_INDEX(SUBSTRING(pagetext, LOCATE('://', pagetext) + 3), '/', 1) AS domain,
  COUNT(*) AS cnt
FROM
  post
WHERE
  pagetext RLIKE 'https?://[^ ]+'
GROUP BY
  domain
HAVING
  cnt >= 100
ORDER BY
  cnt DESC;

Vit ★★★★★
(08.08.15 06:54:58 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Компиляция x32 и x64 приложений в одном Лазарусе

Development

miu — система одновременного кодирования, документирования и тестирования →

Похожие темы