Как быстро заменить строку в миллионе файлов .php?

самое быстрое решение

только если замена такойже длины: упаковать в tar, натравить sed, распаковать. если не стремно то можно прямо на диск натравить (но sed помоему не умеет так), можно снять образ диска и натравить на него - заодно будет бэкап

бекапы рекомендуются!

Deleted
(05.06.17 13:39:07 MSK)

есть 1кк+ файлов .php

Как и нахера это получилось?

thesis ★★★★★
(05.06.17 13:42:44 MSK)

Ссылка

Замена в 8 потоков

find -type f -name '*.php' -print0 | xargs -0 -P 8 sed -i -- 's/foo/bar/g'

no-such-file ★★★★★
(05.06.17 13:47:19 MSK)

Ответ на: комментарий от Deleted 05.06.17 13:39:07 MSK

упаковка в tar и распаковка обратно сожрет больше времени чем работа скрипта на баше (к примеру). для ускорения можно запустить в несколько потоков. но работа с кучей отдельных файликов один х сожрет кучу времени.

Еще можно замудрить такой вот хак: если строки идентичной длины и уникальны, то можно намонстрячить програмку/скриптик который поменяет одну строку на другую прямо в соответствующем /dev/sda*. будет очень быстро, но косячнее.

pfg ★★★★★
(05.06.17 13:51:26 MSK)

Ответ на: комментарий от pfg 05.06.17 13:51:26 MSK

который поменяет одну строку на другую прямо в соответствующем /dev/sda*. будет очень быстро

Сомневаюсь, что это будет быстро. 1кк файлов по 10Кб это всего лишь ~10Гб. Размер диска на порядок больше (скорее всего).

no-such-file ★★★★★
(05.06.17 13:56:53 MSK)

Ссылка

Ответ на: комментарий от pfg 05.06.17 13:51:26 MSK

сожрет больше времени чем работа скрипта на баше (к примеру).

скрипт на баше на каждый файлик будет запускать sed, как минимум, это и беспокоит автора

в принципе накидать на какомнить перле тузлу для inplace замены было бы быстрее всего

Deleted
(05.06.17 13:58:42 MSK)
Последнее исправление: Deleted 05.06.17 13:59:33 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 05.06.17 13:58:42 MSK

скрипт на баше на каждый файлик будет запускать sed

Не на каждый, а на группу файлов - сколько помещается в строку аргументов.

no-such-file ★★★★★
(05.06.17 14:00:18 MSK)

Ссылка

Ответ на: комментарий от Deleted 05.06.17 13:58:42 MSK

исключается мильон операция по открытию и закрытию файла. я думаю всем наглядно что скопировать один 10гб файл будет гораздо быстрее чем 10 000 файлов по 1мб к примеру.

sed закешируется в памяти и для его запуска в работу не будет операций с диском.

на мой взгляд самым долгим процессом будут тут как раз операции с файлами, и их никак не исключишь (ну кроме упомянутого косячного хака)

pfg ★★★★★
(05.06.17 14:02:49 MSK)

Ответ на: комментарий от pfg 05.06.17 14:02:49 MSK

sed еще костыльный inplace делает - через временный файл, так шо тузла будет всяко эффективней

Deleted
(05.06.17 14:03:49 MSK)

Ссылка

Ответ на: комментарий от pfg 05.06.17 14:02:49 MSK

что скопировать один 10гб файл

Вот только проблемка, они разбросаны по диску в 1000Гб.

no-such-file ★★★★★
(05.06.17 14:05:31 MSK)

Ссылка

Ответ на: комментарий от Deleted 05.06.17 13:39:07 MSK

Вроде он спрашивал не самый медленный вариант.

anonymous
(05.06.17 14:05:45 MSK)

Ответ на: комментарий от Deleted 05.06.17 13:58:42 MSK

Это всё равно гораздо быстрее чем прочитать+записать+ещё раз записать как в твоём варианте. У тебя генерируется лишнее дикое количестов iops.

anonymous
(05.06.17 14:08:31 MSK)

Ответ на: комментарий от anonymous 05.06.17 14:05:45 MSK

Все верно, нужно именно быстрое решение. Чтобы не неделю шла замена и т.п.

Merca709
(05.06.17 14:11:00 MSK) автор топика

Ответ на: комментарий от anonymous 05.06.17 14:08:31 MSK

у меня 2*N+4, с скриптом 4*N (запустить sed, прочитать, записать в tmp, переименовать - это с учетом -i)

Deleted
(05.06.17 14:14:14 MSK)

Ссылка

Ответ на: комментарий от Merca709 05.06.17 14:11:00 MSK

Чтобы не неделю шла замена

Какая неделя? Вангую что find + sed справится меньше чем за час.

no-such-file ★★★★★
(05.06.17 14:38:37 MSK)

Ответ на: комментарий от no-such-file 05.06.17 14:38:37 MSK

Можете, пожалуйста, привести пример команды, как именно полный синтаксис выглядит? спасибо

Merca709
(05.06.17 14:46:10 MSK) автор топика

Ссылка

Ответ на: комментарий от no-such-file 05.06.17 14:38:37 MSK

Мы пробовали юзать такую команду: time find ./ -type f -exec sed -i 's/TEXT-1/TEXT-2/g' {} \; Уже неделю идет замена на 1кк, пока еще не завершилась... Может сможете подсказать более лучший синтаксис, спасибо

Merca709
(05.06.17 14:47:46 MSK) автор топика

Ответ на: комментарий от Merca709 05.06.17 14:47:46 MSK

Мы пробовали юзать такую команду: time find ./ -type f -exec sed -i 's/TEXT-1/TEXT-2/g' {} \

У вас реально на каждый файл отдельный sed и в один поток. Да ещё ждёт пока предыдущий sed отработает.

Написал же - Как быстро заменить строку в миллионе файлов .php? (комментарий) Запускает 1 sed на ~ 100 файлов и в 8 потоков параллельно.

no-such-file ★★★★★
(05.06.17 14:51:46 MSK)

Объединить все файлы php в файловой системе в один, натравить на него поиск с заменой, восстановить файловую систему )

vaddd ★☆
(05.06.17 14:57:20 MSK)

Ссылка

Если строка замены достаточно уникальная - вынести все php файлы в отдельную часть диска, пройтись с заменой по поверхности этой части диска )

vaddd ★☆
(05.06.17 15:02:09 MSK)

Ответ на: комментарий от Merca709 05.06.17 14:47:46 MSK

Уже неделю идет замена на 1кк

А замена точно идёт? Что то слишком долго всё равно...

И

time find ./ -type f -exec sed -i 's/TEXT-1/TEXT-2/g' {} \;                                                                    
sed: невозможно прочитать : Нет такого файла или каталога

no-such-file ★★★★★
(05.06.17 15:07:27 MSK)

Ответ на: комментарий от vaddd 05.06.17 15:02:09 MSK

вынести все php файлы в отдельную часть диска

И попутно произвести замену, лол.

no-such-file ★★★★★
(05.06.17 15:09:10 MSK)

Ответ на: комментарий от no-such-file 05.06.17 15:07:27 MSK

Да, замена идет, но медленно. Эту команду запускаем из папки где лежат эти 1кк файлов.

Сорри, туплю, я не очень в Линуксе, а мой партнер-кодер отошел, вот эта команда, что вы привели:

find -type f -name '*.php' -print0 | xargs -0 -P 8 sed -i — 's/foo/bar/g'

Где тут вставлять текст_исходный и текст_который_надо_заменить?

Merca709
(05.06.17 15:11:54 MSK) автор топика

Ответ на: комментарий от no-such-file 05.06.17 14:51:46 MSK

Ваше решение выглядит пока наилучшим, если заработает, т.к. всякие шаманства с объединением файлов/упаковкой = сложны.

Merca709
(05.06.17 15:13:21 MSK) автор топика

Ссылка

Ответ на: комментарий от no-such-file 05.06.17 15:09:10 MSK

Можно, но это будет гораздо дольше :)

vaddd ★☆
(05.06.17 15:13:33 MSK)

Ссылка

Ответ на: комментарий от no-such-file 05.06.17 13:47:19 MSK

Почему sed, а не ed (http://wiki.bash-hackers.org/howto/edit-ed)? Он по идее без временного файла должен работать → быстрее.

d_a ★★★★★
(05.06.17 15:15:20 MSK)

Ответ на: комментарий от d_a 05.06.17 15:15:20 MSK

Почему sed, а не ed

Кстати да, забыл про него. Но он не везде есть, и вроде бы не может батч-обработку нескольких файлов = запуск на каждый файл. Не факт что выйдет быстрее.

no-such-file ★★★★★
(05.06.17 15:18:33 MSK)
Последнее исправление: no-such-file 05.06.17 15:20:54 MSK (всего исправлений: 2)

Ответ на: комментарий от no-such-file 05.06.17 15:18:33 MSK

А как будет полный синтаксис команды замены в итоге с помощью sed и ed?

Merca709
(05.06.17 15:21:18 MSK) автор топика

Ссылка

Ответ на: комментарий от no-such-file 05.06.17 15:18:33 MSK

вроде бы не может батч-обработку нескольких файлов = запуск на каждый файл

Я ed не умею. Вроде там похоже на ex режим в vim, в мануале по крайней мере описана команда r file, так что наверное всё можно сделать в одном процессе ed, скармливая ему команды в stdin. Готовый вариант не дам, простите меня ¡_¡

d_a ★★★★★
(05.06.17 15:49:43 MSK)

Ссылка

Ответ на: комментарий от Merca709 05.06.17 15:11:54 MSK

разобрался, сейчас попробуем

Merca709
(05.06.17 15:50:18 MSK) автор топика

Ссылка

Ответ на: комментарий от no-such-file 05.06.17 14:51:46 MSK

К сожалению, команда приведенная выше (find -type f -name '*.php' -print0 | xargs -0 -P 8 sed -i — 's/TEXT-1/TEXT-2/g') не работает, проходит какое-то время, затем ошибки:

sed: -e expression #1, char 1: unknown command: `�' sed: -e expression #1, char 1: unknown command: `�' sed: -e expression #1, char 1: unknown command: `�'

и т.д.

При этом изменений на вскидку не видно.

Есть какие-то идеи, где ошибка?

Merca709
(05.06.17 17:38:42 MSK) автор топика

Ответ на: комментарий от no-such-file 05.06.17 13:47:19 MSK

При работе с диском (если это один физический диск, а не массив дисков) распараллеливание не только не даст выигрыша, но наоборот всё замедлит. Ведь физически к диску в каждый момент времени всё равно будет обращаться только один поток/процесс. И пока он блокирует диск, другие потоки/процессы до этого диска не доберутся. Зато вместо того, чтоб последовательно читать и писать данные, разные процессы будут поочерёдно обращаться к разным порциям этих данных, перемещая головки чтения/записи туда-сюда, что затратно по времени и быстрее изнашивает диск. Ну и само распараллеливание тоже потребует дополнительных ресурсов.

aureliano15 ★★
(05.06.17 17:49:33 MSK)

Ответ на: комментарий от Merca709 05.06.17 15:11:54 MSK

find -type f -name '*.php' -print0 | xargs -0 -P 8 -I {} sed -i 's/foo/bar/g' {}

Но я бы не стал в данном случае распараллеливать по причинам, изложенным в другом моём каменте в этой теме.

aureliano15 ★★
(05.06.17 18:15:35 MSK)

Ответ на: комментарий от Merca709 05.06.17 15:11:54 MSK

find -type f -name '*.php' -print0 | xargs -0 -P 8 sed -i — 's/foo/bar/g'

Где тут вставлять текст_исходный и текст_который_надо_заменить?

В команде sed исходный текст - foo, заменить на bar. Флаг g означает, что если в одной строке несколько таких подстрок, то заменить все (иначе заменится только первая).

aureliano15 ★★
(05.06.17 18:18:02 MSK)

Ответ на: комментарий от aureliano15 05.06.17 18:18:02 MSK

Спасибо, уже разобрался, но выдает ошибку спустя время, не работает почему-то

Merca709
(05.06.17 18:23:17 MSK) автор топика

Ссылка

Ответ на: комментарий от aureliano15 05.06.17 18:15:35 MSK

find -type f -name '*.php' -print0 | xargs -0 -P 8 -I {} sed -i 's/foo/bar/g' {}

а как команда должна выглядеть без распараллеливания?

Merca709
(05.06.17 18:24:54 MSK) автор топика

Ответ на: комментарий от Merca709 05.06.17 18:24:54 MSK

Это что за хрень? Неужели так трудно было скопипастить готовую команду?

find -type f -name '*.php' -print0 | xargs -0 -P 8 sed -i -- 's/TEXT-1/TEXT-2/g'

Ты где тут {} нашёл? Без распараллеливания 8 замени на 1 (поток).

no-such-file ★★★★★
(05.06.17 18:30:48 MSK)
Последнее исправление: no-such-file 05.06.17 18:36:35 MSK (всего исправлений: 1)

В случае с php-файлами эта задача решается так:

find / -name "*.php" | xargs rm

nihirash ★★★
(05.06.17 18:31:21 MSK)

Ответ на: комментарий от aureliano15 05.06.17 17:49:33 MSK

распараллеливание не только не даст выигрыша, но наоборот всё замедлит

Чо правда? Sed не всё время читает/пишет. А кроме того, другие программы тоже хотят работать, больше активных sed-ов повысят % использования диска данной задачей. Просто ведь проверить, запустить на небольшом объёме в 1 поток и в 8.

Ведь физически к диску в каждый момент времени всё равно будет обращаться только один поток/процесс

Для этого придумали планировщики ввода-вывода.

no-such-file ★★★★★
(05.06.17 18:34:43 MSK)
Последнее исправление: no-such-file 05.06.17 18:40:22 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Merca709 05.06.17 17:38:42 MSK

Видимо в TEXT-1 или TEXT-2 есть какие-то символы, которые ломают выражение.

no-such-file ★★★★★
(05.06.17 18:39:17 MSK)

Ссылка

Ответ на: комментарий от Merca709 05.06.17 18:24:54 MSK

find -type f -name '*.php' -print0 | xargs -0 -P 8 -I {} sed -i 's/foo/bar/g' {}
а как команда должна выглядеть без распараллеливания?

find -type f -name '*.php' -exec sed -i 's/foo/bar/g' {} \;

В данном варианте sed вызывается для каждого найденного файла. «{}» заменяется именем файла. Аргументы -exec заканчиваются «\;»

Можно ещё так:

sed -i 's/foo/bar/g' $(find -type f -name '*.php')

Этот вариант сначала найдёт все файлы, а потом вызовет единственный экземпляр sed для их последовательной обработки, что может сэкономить время. Но если файлов порядка миллиона, то вызов может завершиться ошибкой из-за слишком длинной командной строки (ведь вместо find ... командная оболочка попытается подставить весь миллион файлов за раз).

aureliano15 ★★
(05.06.17 18:44:02 MSK)

Ответ на: комментарий от aureliano15 05.06.17 18:44:02 MSK

В данном варианте sed вызывается для каждого найденного файла

И дико тормозит.

Этот вариант сначала найдёт все файлы

А потом скажет, что command line too long.

Зачем что-то советовать, если ты не в теме? Кстати, что касается параллельной работы - тут затык не в скорости обмена с диском, а в том что много мелких файлов и тратится время на поиск. Нужно много времени, чтобы просто сделать find. В моём варианте find идёт независимо и параллельно от обработки и список файлов сохраняется в пайпе, откуда его потом раскидывает на sed-ы. Эти sed-ы уже не тормозят при чтении-записи, потому что нужные структуры файловой системы уже осели в кэше.

no-such-file ★★★★★
(05.06.17 18:46:27 MSK)
Последнее исправление: no-such-file 05.06.17 18:53:32 MSK (всего исправлений: 1)

Ответ на: комментарий от no-such-file 05.06.17 18:30:48 MSK

find -type f -name '*.php' -print0 | xargs -0 -P 8 sed -i — 's/TEXT-1/TEXT-2/g'

Ты где тут {} нашёл? Без распараллеливания 8 замени на 1 (поток).

Это ко мне. Там был камент, что не сработало, вот я и решил, что не хватает имени файла в качестве аргумента, и предложил такой вариант. Потом проверил, - тот вариант без фигурных скобок у меня нормально работает. Но и мой тоже нормально работает.

Видимо действительно в самом рег. выр. какие-то недопустимые неэкранируемые символы присутствуют. Но чтоб это узнать, топикстартер должен выложить своё регулярное выражение.

aureliano15 ★★
(05.06.17 18:50:12 MSK)

Ответ на: комментарий от aureliano15 05.06.17 18:50:12 MSK

какие-то недопустимые неэкранируемые символы присутствуют

Вангую, что используемый sed не умеет в utf-8. Судя по кракозябле в ошибке.

no-such-file ★★★★★
(05.06.17 18:54:33 MSK)

Ответ на: комментарий от no-such-file 05.06.17 18:46:27 MSK

Ну я ведь то же самое написал с самого начала. :-)

Идеальный вариант - это всё затарить, как предлагали выше, но он сработает только если длина foo и bar абсолютно одинакова.

Можно ещё склеить файлы, сохранив внутри склеенного файла имена оригинальных, типа (for i in *.php; do echo «$i :»; cat *.php; done) > megafile, а потом обрабатывать этот мегафайл, после чего снова разделить его. Но это ещё сложнее.

aureliano15 ★★
(05.06.17 18:55:24 MSK)

Ответ на: комментарий от aureliano15 05.06.17 18:50:12 MSK

Во-первых, всем спасибо за ответы! Продолжаю тестировать предложенные способы, как будут новости - сразу отпишу. Возможно я упустил один знак в

--

.

По поводу самой строки, которую меняем - она не содержит пробелов и каких-либо спец. символов, только набор латинских букв и цифр, пример:

firsttext-0205 надо заменить на новый текст second-text-35070

Merca709
(05.06.17 18:55:54 MSK) автор топика

Ответ на: комментарий от Merca709 05.06.17 18:55:54 MSK

Странно,

find -type f -name '*.php' -print0 | xargs -0 -P 8 sed -i -- 's/firsttext-0205/second-text-35070/g'

УМВР. Ищите в общем, где-то в команде кривые символы должны быть. Может быть они не отображаются, но попадают при копипасте.

no-such-file ★★★★★
(05.06.17 18:59:33 MSK)
Последнее исправление: no-such-file 05.06.17 19:08:18 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от no-such-file 05.06.17 18:54:33 MSK

Все php-файлы (1кк) имеют кодировку UTF-8

Merca709
(05.06.17 19:00:00 MSK) автор топика

Ссылка

Ответ на: комментарий от Merca709 05.06.17 18:55:54 MSK

На счёт знака --, да он бывает криво копипастится. Но вообще не думаю, что это влияет. Он нужен для того чтобы файлы с именами похожими на опции не воспринимались как опции.

no-such-file ★★★★★
(05.06.17 19:00:50 MSK)

Ссылка

миллион файлов .php ? Это ж просто безобразие какое-то ...

~~Jopich1~~ ☆
(05.06.17 19:01:22 MSK)

Ссылка

Похожие темы