MYSQL выбрать строки с дублями полей

0

1

Добрый день! Помогите накидать запрос для отбора полей с дублями. SQL последний раз юзал лет 5 назад, ничего не помню. Есть таблица, `files` в ней есть строки с полем `filepath`, нужно отобрать строки с одинаковыми значениями. Пробую такой запрос

SELECT * FROM `files` 
GROUP BY `filepath` 
HAVING COUNT(*) > 1

Получаю строки, но они группируются типа так

1 /etc/1

2 /etc/2

А мне надо

1 /etc/1

2 /etc/1

3 /etc/1

4 /etc/2

5 /etc/2

Ссылка

←	Как это реализовано? Подскажите/покажите пример.

Python, Jinja2, nested for

→

убрать group by?

r0ck3r ★★★★★
(11.08.14 13:36:50 MSK)

Ссылка

Не GROUP BY, а SORT BY.

CYB3R ★★★★★
(11.08.14 13:45:04 MSK)

уберёшь group by - не будет работать having.
либо добавь order by filepath, либо используй where и sort by.

anonymous
(11.08.14 13:46:02 MSK)

Ссылка

Ответ на: комментарий от CYB3R 11.08.14 13:45:04 MSK

Тогда не будет работать having

Sora ★★
(11.08.14 13:49:58 MSK) автор топика

не слушай анонимусов


SELECT * FROM `files` 
WHERE `filepath` IN (
SELECT `filepath` FROM `files` 
GROUP BY `filepath` 
HAVING COUNT(`filepath`) > 1
)

надеюсь, с синтаксисом не напутал

bvn13 ★★★★★
(11.08.14 13:55:29 MSK)
Последнее исправление: bvn13 11.08.14 13:55:57 MSK (всего исправлений: 1)

http://stackoverflow.com/questions/854128/find-duplicate-records-in-mysql

Wolfram ★
(11.08.14 13:55:53 MSK)

Ссылка

Ответ на: комментарий от Sora 11.08.14 13:49:58 MSK

Вместо него WHERE, как анонимус выше посоветовал.

CYB3R ★★★★★
(11.08.14 13:56:41 MSK)

Ссылка

Ответ на: комментарий от bvn13 11.08.14 13:55:29 MSK

В старых мускулях вложенные запросы могут работать довольно медленно (не использовать индекс). Если запрос не одноразовый то перед тем как его использовать стоит посмотреть план исполнения (explain select ...)

MrClon ★★★★★
(11.08.14 14:18:57 MSK)

Ответ на: комментарий от MrClon 11.08.14 14:18:57 MSK

Верно, тупо уходит в аут MYSQL.

Sora ★★
(11.08.14 14:30:29 MSK) автор топика

Ответ на: комментарий от Sora 11.08.14 14:30:29 MSK

А база сильно большая? Если там не миллионымиллиарды строк то при фулскане должен просто хрустеть хардом несколько секунд/минут.
Версия мускуля какая?

Зачастую можно переписать вложенный селект на джойн таблицы на саму себя, попробуй.

MrClon ★★★★★
(11.08.14 14:33:24 MSK)

Ответ на: комментарий от MrClon 11.08.14 14:33:24 MSK

База ~100mb, эта таблица 28276 строк.

Версия сервера: 5.5.35-log - MySQL Community Server (GPL)

Sora ★★
(11.08.14 14:34:42 MSK) автор топика
Последнее исправление: Sora 11.08.14 14:35:49 MSK (всего исправлений: 1)

Ответ на: комментарий от Sora 11.08.14 14:34:42 MSK

И запрос намертво виснет? А есди подождать минуту другую? Покажи план выполнения запроса (допиши перед запросом explain).

MrClon ★★★★★
(11.08.14 14:39:16 MSK)

Можно сперва встречный вопрос, а зачем их надо найти? Если просто надо дропнуть все дубликаты для данной записи, то находить их для этого не надо.

Еще можно пометить все дубликаты с использованием дополнительной колонки и джойна (http://www.mysqltutorial.org/mysql-update-join/). Задно сразу отличить дубликат от оригинала.

Jaberwock ★★★
(11.08.14 14:56:00 MSK)

Ответ на: комментарий от Jaberwock 11.08.14 14:56:00 MSK

Надо дропнуть. Спасибо, дома почитаю!

Sora ★★
(11.08.14 16:56:20 MSK) автор топика

Ссылка

Ответ на: комментарий от MrClon 11.08.14 14:39:16 MSK

Виснет намертво, час ждал, бесполезно. Попробую с explain уже дома, спасибо за помощь!

Sora ★★
(11.08.14 16:57:51 MSK) автор топика

Ответ на: комментарий от MrClon 11.08.14 14:39:16 MSK

mysql> EXPLAIN SELECT * FROM `files` WHERE `filepath` IN ( SELECT `filepath` FRO M `files` GROUP BY `filepath` HAVING COUNT(`filepath`) > 1 ) -> ;

+----+--------------------+-------+------+---------------+------+---------+------+-------+---------------------------------+

+----+--------------------+-------+------+---------------+------+---------+------+-------+---------------------------------+

+----+--------------------+-------+------+---------------+------+---------+------+-------+---------------------------------+

2 rows in set (0.00 sec)

Sora ★★
(11.08.14 21:11:47 MSK) автор топика

Ответ на: комментарий от Sora 11.08.14 21:11:47 MSK

А индексы-то в таблице есть?
Показывай SHOW INDEX FROM files;
Свободного места на диске сколько?

MrClon ★★★★★
(11.08.14 21:22:16 MSK)

Ответ на: комментарий от MrClon 11.08.14 21:22:16 MSK

mysql> SHOW INDEX FROM files;

+-------+------------+-----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+

+-------+------------+-----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+

| files | 0 | PRIMARY | 1 | fid | A | 28276 | NULL | NULL | | BTREE | | |

| files | 1 | uid | 1 | uid | A | 271 | NULL | NULL | | BTREE | | |

+-------+------------+-----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+ 4 rows in set (0.01 sec)

Места полно. 600Гб.

Sora ★★
(11.08.14 21:39:14 MSK) автор топика

Ответ на: комментарий от MrClon 11.08.14 14:18:57 MSK

В старых мускулях вложенные запросы могут работать довольно медленно

И в новых тоже. Иной раз на совсем простой таблице SELECT .. WHERE ... IN (SELECT ..) зависает на десятки секунд. В то время, как JOIN отрабатывает за тысячные доли секунды. И даже если JOIN неприменим, то создание временной таблицы и выборка через JOIN уже с ней срабатывает за десятые-сотые доли секунды. Просто воспринимаю это как данность :D

~~KRoN73~~ ★★★★★
(11.08.14 21:49:55 MSK)

Ответ на: комментарий от Sora 11.08.14 16:57:51 MSK

Попробуй так:

EXPLAIN SELECT t1.id, t1.filepath
  FROM files t1,
  (SELECT filepath
    FROM files
    GROUP BY filepath
    HAVING COUNT(filepath) > 1
  ) t2
  WHERE t1.filepath = t2.filepath

Wolfram ★
(11.08.14 21:50:09 MSK)

Ответ на: комментарий от Wolfram 11.08.14 21:50:09 MSK

mysql> EXPLAIN SELECT t1.fid, t1.filepath FROM files t1, (SELECT filepath FROM f iles GROUP BY filepath HAVING COUNT(filepath) > 1 ) t2 WHERE t1.filepath = t2.fi lepath;

+----+-------------+------------+------+---------------+------+---------+------+-------+---------------------------------+

+----+-------------+------------+------+---------------+------+---------+------+-------+---------------------------------+

+----+-------------+------------+------+---------------+------+---------+------+-------+---------------------------------+

3 rows in set (0.61 sec)

Sora ★★
(11.08.14 22:15:46 MSK) автор топика

Ответ на: комментарий от KRoN73 11.08.14 21:49:55 MSK

В последних версиях (то-ли с 5.5 то-ли с 5.6) что-то в оптимизаторе подкрутили на этот счёт, в каких-то случаях подапросы стали работать так-же быстро как джоины, а в некоторых случаях быстрее. На хабре был пост, искать лень.
Но в целом да, с подзапросами есть какая-то попа.

А в данном случае попа усиливается тем что по столбцу filepath нет индекса.

Короче для начала нужно добавить индекс (если запрос не одноразовый), потому-что без индексов жить в принципе грустно. А потом ещё и переписать запрос на join, если всё-равно дико тормозить будет.

MrClon ★★★★★
(11.08.14 22:17:34 MSK)

Ответ на: комментарий от Wolfram 11.08.14 21:50:09 MSK

Без индекса — всё тлен.
Мускуль пытается сортировать по filepath, а поскольку индекса там нет, а данных там много то сортировать он пытается в файле, и почему-то от этого запрос виснет намертво.

MrClon ★★★★★
(11.08.14 22:20:55 MSK)

Ответ на: комментарий от Sora 11.08.14 21:39:14 MSK

А в /tmp? Гюльчитай, покажи df -h

MrClon ★★★★★
(11.08.14 22:21:30 MSK)

Ответ на: комментарий от MrClon 11.08.14 22:17:34 MSK

В последних версиях (то-ли с 5.5 то-ли с 5.6) что-то в оптимизаторе подкрутили на этот счёт

5.6 не видел, в 5.5 и MariaDB 10.0 (я м MySQL 5.5 сразу на неё перелез) проблема актуальна.

А в данном случае попа усиливается тем что по столбцу filepath нет индекса.

Ну, это совсем грустно :)

Короче для начала нужно добавить индекс (если запрос не одноразовый)

Самое смешное, что в случае подзапросов часто выгодно создать временную таблицу, добавить там индекс и уже по ней делать JOIN. Нередко получается не сопоставимая разница, вместо десятков секунд или минут — десятые доли секунды на всё, включая создание временной таблицы и индексов.

~~KRoN73~~ ★★★★★
(11.08.14 22:23:19 MSK)

Ссылка

Ответ на: комментарий от MrClon 11.08.14 22:17:34 MSK

Нет, мне один раз решить проблему, обновляю CMS Drupal с 6 до 7, начались проблемы при переносе полей нод, не переносятся пути изображений, накопал что проблема с этой таблицей.

Проблема застарела, видно еще в 2010 году был некий косяк с базой. Надо ее один раз почистить и все.

Sora ★★
(11.08.14 22:23:28 MSK) автор топика

Ответ на: комментарий от MrClon 11.08.14 22:21:30 MSK

WAMP, место есть, это копия сайта у меня на нойте.

Sora ★★
(11.08.14 22:26:04 MSK) автор топика

Ссылка

Ответ на: комментарий от Sora 11.08.14 22:15:46 MSK

Сейчас уже не вешает запрос?

Можно еще добавить индекс для `filepath`

ALTER TABLE `files` ADD INDEX(`filepath`);

Wolfram ★
(11.08.14 22:26:48 MSK)

Ответ на: комментарий от Sora 11.08.14 22:23:28 MSK

Тогда делай временную таблицу, или гугли как переписать подапрос на join, про это написано много

MrClon ★★★★★
(11.08.14 22:29:26 MSK)

Ссылка

Ответ на: комментарий от MrClon 11.08.14 22:20:55 MSK

Мускуль пытается сортировать

Там нет сортировки.

а данных там много

28276 строк, не много.

индекса там нет

Согласен, что индекс может помочь, но не факт.

Wolfram ★
(11.08.14 22:29:46 MSK)

Ответ на: комментарий от Wolfram 11.08.14 22:29:46 MSK

Ты её не видишь, и я её не вижу, а она есть:

Using temporary; Using filesort

MrClon ★★★★★
(11.08.14 22:33:22 MSK)

Ответ на: комментарий от MrClon 11.08.14 22:33:22 MSK

Ты её не видишь, и я её не вижу, а она есть:
Using temporary; Using filesort

Я не об этой сортировке. Если добавить order by будет еще медленнее.

Wolfram ★
(11.08.14 22:37:36 MSK)

Ответ на: комментарий от Wolfram 11.08.14 22:37:36 MSK

Вот, ты её даже в виду не имеешь, а она всё-равно есть и всё-равно тормозит выполнение запроса вплоть до полного его зависания.

MrClon ★★★★★
(11.08.14 22:39:00 MSK)

Ответ на: комментарий от Wolfram 11.08.14 21:50:09 MSK

Запрос отработал как надо, спасибо огромное!

Sora ★★
(12.08.14 09:39:54 MSK) автор топика

Ссылка

Ответ на: комментарий от MrClon 11.08.14 22:39:00 MSK

Спасибо большое за помощь!

Sora ★★
(12.08.14 09:40:12 MSK) автор топика

Ссылка

Ответ на: комментарий от Wolfram 11.08.14 22:26:48 MSK

точнее так: ALTER IGNORE TABLE ADD UNIQUE(`filepath`) и дубликатов нет

Jaberwock ★★★
(12.08.14 14:20:04 MSK)

Ответ на: комментарий от Jaberwock 12.08.14 14:20:04 MSK

Согласен. В данном случае UNIQUE будет актуальнее (только имя таблицы забыл). Но запись в таблицу через INSERT IGNORE придется делать.

Wolfram ★
(12.08.14 14:33:38 MSK)

Ответ на: комментарий от Wolfram 12.08.14 14:33:38 MSK

Читай выше, задача была дропнуть дубликаты. После удаления дубликатов можно или оставить юник и забыть про дубликаты навсегда или дропнуть юник и вернуться к прежнему ссостоянию но без дубликатов

INSERT IGNORE не нужен в любом случае.

Jaberwock ★★★
(12.08.14 14:38:35 MSK)

10 июля 2016 г.

Ответ на: комментарий от Jaberwock 12.08.14 14:38:35 MSK

SELECT * FROM (

SELECT * , COUNT( vId ) AS count FROM t_sklad_update u GROUP BY u.vId )u2 WHERE u2.count >1

anonymous
(10.07.16 23:52:42 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Как это реализовано? Подскажите/покажите пример.

Web-development

Python, Jinja2, nested for

→

Похожие темы