Как переформатировать «книжные» абзацы с переносами в длинные строки?

0

1

Имеется текст, в котором абзацы разбиты на строки, причем в словах имеются переносы. Выглядит текст вот так:

Это такой текст в котором есть переносы
строк. Причем строки переносятся не толь-
ко на границах слов, но и с помощью сим-
волов переноса (символ "тире").

Каждый абзац отделяется от другого пустой
строкой.

И нужно преобразовать этот текст так, чтобы один абзац представлял из себя одну строку, вот так:

Это такой текст в котором есть переносы строк. Причем строки переносятся не только на границах слов, но и с помощью символов переноса (символ "тире").

Каждый абзац отделяется от другого пустой строкой.

Как это можно быстро сделать? Есть ли готовые утилиты? Может быть, есть какой-то сервис онлайн?

Ссылка

←	Посоветуйте дистрибутив Linux без окружения GNU

Странное поведение grep

→

← 1 2 →

Сохрани его как маркдаун и отрендери — одиночные переносы он уберет. А вот насчет переносов — тут уже сложнее.

Zhbert ★★★★★
(23.03.23 10:07:11 MSK)

Считываете текст в буфер и затем тривиальный (логика переформатирования не сложная) цикл по его данным.

~~Forum0888~~
(23.03.23 10:08:38 MSK)

Ссылка

Ответ на: комментарий от Zhbert 23.03.23 10:07:11 MSK

Можно чуть усложнить — сначала берешь какой-нибудь awk или sed и бежишь по строкам, убирая в конце дефисы, если они есть. А потом см выше.

Zhbert ★★★★★
(23.03.23 10:09:41 MSK)
Последнее исправление: Zhbert 23.03.23 10:11:47 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Zhbert 23.03.23 10:07:11 MSK

P.S. Перечитал свое сообщение :) Переносы строки уберет, а переносы слов нет.

Zhbert ★★★★★
(23.03.23 10:14:14 MSK)

Ссылка

Есть ли готовые утилиты?

Ну sed жи, на SO полно таких вопросов и ответов про unwrap my text.

vvn_black ★★★★★
(23.03.23 10:22:07 MSK)

Быстро - полностью от тебя зависит, средненького знания bash достаточно.

Если пустая строка, то переходишь к следующей. Начало абзаца.

Проверяешь символ «конца строки». Если «да», проверяешь предыдущий символ. Если «перенос» - удаляешь. Удаляешь символ конца строки.

Тут конечно возможны «какие-нибудь» коллизии.

andytux ★★★★★
(23.03.23 10:22:55 MSK)

Ссылка

Ответ на: комментарий от vvn_black 23.03.23 10:22:07 MSK

Я перебрал штук 15 онлайн-сервисов, и нашел пока один, который делает почти то что нужно:

https://ru.texthandler.com/text-tools/remove-line-breaks/

Переносы строк и удаление символов переноса (тире) сервис делает правильно.

Проблема его в том, что в нем нельзя настроить чтобы между абзацами оставалась пустая строка.

Xintrea ★★★★★
(23.03.23 10:30:26 MSK) автор топика

perl -p -e 's/\n(?![^\n])/ /' file

~~uwuwuu~~
(23.03.23 11:19:17 MSK)

Ответ на: комментарий от Xintrea 23.03.23 10:30:26 MSK

предварительно замени (или добавь) к двум \n\n еще какой-нибудь произвольный символ (например ^) потом замени его обратно на пустую строку.

Avial ★★★★★
(23.03.23 11:22:59 MSK)

Ответ на: комментарий от uwuwuu 23.03.23 11:19:17 MSK

perl -p -e 's/\n(?![^\n])/ /' file

И получили месиво:

Это такой текст в котором есть переносы строк. Причем строки переносятся не толь- ко на границах слов, но и с помощью сим- волов переноса (символ "тире").  Каждый абзац отделяется от другого пустой строкой.

Xintrea ★★★★★
(23.03.23 11:23:26 MSK) автор топика

Ответ на: комментарий от Avial 23.03.23 11:22:59 MSK

предварительно замени (или добавь) к двум \n\n еще какой-нибудь произвольный символ (например ^) потом замени его обратно на пустую строку.

А если он встречается в тексте?

Xintrea ★★★★★
(23.03.23 11:23:58 MSK) автор топика

Ссылка

Ответ на: комментарий от Xintrea 23.03.23 11:23:26 MSK

ну так поправь как тебе надо

~~uwuwuu~~
(23.03.23 11:24:42 MSK)

Ответ на: комментарий от uwuwuu 23.03.23 11:24:42 MSK

Я не знаю perl.

Но ведь магия однострочников на перле тебе подвластна, не так ли?

Xintrea ★★★★★
(23.03.23 11:25:33 MSK) автор топика
Последнее исправление: Xintrea 23.03.23 11:26:20 MSK (всего исправлений: 1)

Ответ на: комментарий от Xintrea 23.03.23 11:25:33 MSK

я его тоже не знаю. там регулярки:

's/шаблон для замены/чем заменяем/'

's/\n(?![^\n])/ /'

# Перенос строки после которого идет любой символ кроме переноса
\n(?![^\n])

~~uwuwuu~~
(23.03.23 11:27:50 MSK)

Ссылка

Ответ на: комментарий от Xintrea 23.03.23 10:30:26 MSK

нельзя настроить чтобы между абзацами оставалась пустая строка.

Возьми результат и напечатай строчки из него добавляя после каждой перевод строки.

sin_a ★★★★★
(23.03.23 11:28:20 MSK)

Ссылка

Ответ на: комментарий от Xintrea 23.03.23 10:30:26 MSK

Я вообще ни разу не настоящий сварщик, но с помощью SO получилось вот такое:

sed ':a;N;$!{/\n$/!ba}; s/[[:blank:]]*\n[[:blank:]]*/ /g; s/-\s//g; G' filename.txt

vvn_black ★★★★★
(23.03.23 11:32:35 MSK)

Мракобесы вы все какие-то :) Я самый простой вариант предложил.

Сохрани текст в text.txt
Бахни его седом, убрать дефисы в конце строк: sed 's/-$//' text.txt > output.txt
Убедись, что в output.txt все нормально:

Это такой текст в котором есть переносы
строк. Причем строки переносятся не толь
ко на границах слов, но и с помощью сим
волов переноса (символ "тире").

Каждый абзац отделяется от другого пустой
строкой.

Переименую его в *.md: mv output.txt output.md
Открой в VSCode и жамкни просмотр. Скопируй оттуда то, что тебе нужно:

Это такой текст в котором есть переносы строк. Причем строки переносятся не толь ко на границах слов, но и с помощью сим волов переноса (символ "тире").

Каждый абзац отделяется от другого пустой строкой.

Zhbert ★★★★★
(23.03.23 11:41:30 MSK)

Ответ на: комментарий от vvn_black 23.03.23 11:32:35 MSK

sed ':a;N;$!{/\n$/!ba}; s/[[:blank:]]*\n[[:blank:]]*/ /g; s/-\s//g; G' filename.txt

Во, это самое правильное решение. Ну я уже в полуручном режиме обработал нужный мне текст.

Xintrea ★★★★★
(23.03.23 11:42:18 MSK) автор топика
Последнее исправление: Xintrea 23.03.23 11:43:47 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Zhbert 23.03.23 11:41:30 MSK

То есть, наличие в итоговом тексте «толь ко» и «сим волов» тебя не смутили?

Xintrea ★★★★★
(23.03.23 11:46:55 MSK) автор топика

Ответ на: комментарий от vvn_black 23.03.23 11:32:35 MSK

sed ':a;N;$!{/\n$/!ba}; s/[[:blank:]]*\n[[:blank:]]*/ /g; s/-\s//g; G' filename.txt

Хотя нет, тоже есть косяк с лишними пробелами в начале абзаца. Это как-то связано с переносом в первой строке абзаца.

А так же в конце абзаца всегда остается лишний пробел.

Xintrea ★★★★★
(23.03.23 11:52:22 MSK) автор топика
Последнее исправление: Xintrea 23.03.23 11:55:01 MSK (всего исправлений: 2)

Ответ на: комментарий от Xintrea 23.03.23 11:46:55 MSK

А это я слепошарый просто :(

Zhbert ★★★★★
(23.03.23 11:53:47 MSK)

Ссылка

Ответ на: комментарий от Xintrea 23.03.23 11:52:22 MSK

Сейчас немного остынешь и поймешь, что переносить нужно было по предложениям.

andytux ★★★★★
(23.03.23 11:55:40 MSK)

Ссылка

Ответ на: комментарий от vvn_black 23.03.23 11:32:35 MSK

sed ':a;N;$!{/\n$/!ba}; s/[[:blank:]]*\n[[:blank:]]*/ /g; s/-\s//g; G' filename.txt

В общем, более правильно будет сделать так:

cat filename.txt | sed ':a;N;$!{/\n$/!ba}; s/[[:blank:]]*\n[[:blank:]]*/ /g; s/-\s//g; G' | sed 's/^[ \t]//' | sed 's/[ \t]$//' > newFilename.txt

Понятно, что это всего лишь исправление постфактум неправильного базового алгоритма, но результат получается такой какой нужно.

Xintrea ★★★★★
(23.03.23 12:07:31 MSK) автор топика

Ответ на: комментарий от Xintrea 23.03.23 12:07:31 MSK

Я даже не проверял:

$ xclip -sel c -o | perl -p -e 's/\n{2}//'
Это такой текст в котором есть переносы
строк. Причем строки переносятся не толь-
ко на границах слов, но и с помощью сим-
волов переноса (символ "тире").

Каждый абзац отделяется от другого пустой
строкой.

$ xclip -sel c -o | perl -p -e 's/\n/_/'
Это такой текст в котором есть переносы_строк. Причем строки переносятся не толь-_ко на границах слов, но и с помощью сим-_волов переноса (символ "тире").__Каждый абзац отделяется от другого пустой_строкой.

Perl тоже как-то странно работает. Он два переноса не воспринимает

~~uwuwuu~~
(23.03.23 12:16:27 MSK)

Ссылка

Ответ на: комментарий от Xintrea 23.03.23 12:07:31 MSK

$ xclip -sel c -o | perl -p -0 -w -e 's/\n\n/<br>/g; s/-\n//g; s/\n/ /g; s/<br>/\n\n/g'
Это такой текст в котором есть переносы строк. Причем строки переносятся не только на границах слов, но и с помощью символов переноса (символ "тире").

Каждый абзац отделяется от другого пустой строкой.

~~uwuwuu~~
(23.03.23 12:21:10 MSK)

Ответ на: комментарий от Xintrea 23.03.23 12:07:31 MSK

Мысль такая, что вы дольше топик на ЛОРе создавали, минута поискать «linux unwrap|unfold text» и потом за полчаса допилить после тестов, подчистить.

Но это не в плане упрёка, бывает, что накатывает какой-то стопор, который не даёт даже направление решения самостоятельно увидеть. Я с этим стараюсь бороться.

vvn_black ★★★★★
(23.03.23 12:34:08 MSK)

Ответ на: комментарий от vvn_black 23.03.23 12:34:08 MSK

А вот откуда можно узнать, что нужно делать «linux unwrap|unfold text»?

Я, например, искал «linux text remove line breaks paragraph transfer symbol how to formatting» и прочие комбинации.

Основная проблема с «transfer symbol», про них как будто все забывают.

Xintrea ★★★★★
(23.03.23 13:42:48 MSK) автор топика

Я когда то в промышленных масштабах такое делал, когда приносили монографию в txt и её нужно было запихать в пижмекер и сверстать. Собсно правильную логику тут уже подсказали выше, неоднократно.

PS. Это всё детские неприятности по сравнению с монографией набранной в Microsoft Word, со встроенными туда пережатыми иллюстрациями в 72 DPI, разъехавшимися таблицами и сбитой нумерацией страниц. И сопровождающим её распоряжением «автор сам её сверстал, просто быстренько к печати подготовьте и в печать, там всё сделано практически».

Jameson ★★★★★
(23.03.23 14:31:26 MSK)
Последнее исправление: Jameson 23.03.23 14:34:54 MSK (всего исправлений: 4)

Ссылка

А как распознать, где перенос, а где дефис? Простой конкатенацией строк не обойтись.

dmitry237 ★★★★★
(23.03.23 14:55:45 MSK)

Ответ на: комментарий от dmitry237 23.03.23 14:55:45 MSK

https://ru.wikipedia.org/wiki/Перенос_(типографика)

~~Forum0888~~
(23.03.23 15:02:16 MSK)

Ответ на: комментарий от dmitry237 23.03.23 14:55:45 MSK

За дефисом обычно следующий печатный символ следует. А за переносом следует непечатный символ CR, или LF, или CR+LF в зависимости от того в какой ОС сохранялся txt. Возможно конечно что перенос произошёл на самом дефисе, но подобные вещи всё равно глазами отлавливать нужно. Вообще автозамены лучше делать по абзацам с визуальным контролем результата, иначе может быть грустно, либо смешно.

Jameson ★★★★★
(23.03.23 15:02:18 MSK)
Последнее исправление: Jameson 23.03.23 15:05:45 MSK (всего исправлений: 1)

Ответ на: комментарий от Jameson 23.03.23 15:02:18 MSK

нужно преобразовать этот текст

За дефисом обычно следующий печатный символ следует.

В текстовом файле? Там только \r?\n

dmitry237 ★★★★★
(23.03.23 15:06:33 MSK)

Ответ на: комментарий от Forum0888 23.03.23 15:02:16 MSK

В Юникоде символ мягкого переноса имеет код U+00AD

~~Forum0888~~
(23.03.23 15:08:27 MSK)

Ссылка

Ответ на: комментарий от dmitry237 23.03.23 15:06:33 MSK

Я видимо тогда твоего вопроса не понял. Ты спросил как отличить перенос от дефиса. Я понял так:

бледно-розовый (это дефис)

индустри-
ализация (перенос)

бледно-
розовый (перенос попал на дефис)

Логика такая — сначала мы отлавливаем и убираем именно переносы, их признаком является то что после - следует символ перевода каретки или возврата строки, или оба два одновременно (зависит от ОС в которой сохраняли txt). В третьем примере мы не отличим перенос от дефиса, но во первых словосочетания с дефисом редкость, а во вторых вычитку после автозамен никто не отменял.

Ну а дальше, избавившись от переносов, мы поабзацно избавляемся от символов перевода каретки и\или возврата строки, осуществляя тем самым unfold.

Jameson ★★★★★
(23.03.23 15:16:57 MSK)

Как переформатировать «книжные» абзацы с переносами в длинные строки

Файл с текстом желательно посмотреть.

~~Forum0888~~
(23.03.23 15:20:55 MSK)

Ссылка

Ответ на: комментарий от Jameson 23.03.23 15:16:57 MSK

но во первых словосочетания с дефисом редкость

Не такая уж и редкость, но для часто используемых можно применить правило, а-ля:

$ 'что-то кто-нибудь пере-нос кто-либо' -replace '(?!=-)-(?!(то|нибудь|либо))'
что-то кто-нибудь перенос кто-либо

А оставшиеся исключения уже руками.

dmitry237 ★★★★★
(23.03.23 15:41:39 MSK)

Ответ на: комментарий от dmitry237 23.03.23 15:41:39 MSK

что-то переносят целиком

~~uwuwuu~~
(23.03.23 15:43:17 MSK)

Ответ на: комментарий от uwuwuu 23.03.23 15:43:17 MSK

Это не так, но так или иначе вопрос не в переносе, а в том, что дефис после объединения строк может попасть в слово, например «это бывший пере-нос»

dmitry237 ★★★★★
(23.03.23 15:51:51 MSK)

Ответ на: комментарий от dmitry237 23.03.23 15:51:51 MSK

я их вырезал

~~uwuwuu~~
(23.03.23 15:57:24 MSK)

Ссылка

Ответ на: комментарий от dmitry237 23.03.23 15:41:39 MSK

Ну да, правило "-то -либо -нибудь кое- -таки -ка" можно правилом оформить. Но вычитывать после автозамен всё равно обязательно.

Jameson ★★★★★
(23.03.23 16:11:54 MSK)

Ссылка

Ответ на: комментарий от uwuwuu 23.03.23 12:21:10 MSK

perl -p -0 -w -e 's/\n\n/<br>/g; s/-\n//g; s/\n/ /g; s/<br>/\n\n/g'

Кстати, этот вариант тоже лепит один случайный пробел в начало строки.

Xintrea ★★★★★
(23.03.23 16:19:07 MSK) автор топика

Ответ на: комментарий от Xintrea 23.03.23 16:19:07 MSK

А потом по хорошему всё равно надо ещё раз проходить фильтром убирающим пробелы в начале абзацев, двойные (и более) пробелы тоже. Потому что те кто тексты в txt сохраняют в таком вот как у тебя виде — они ещё пятью пробелами абзацы выделяют, выравнивают заголовки и вообще ими текст форматируют. Так что от всех лишних пробелов тоже нужно избавляться.

Jameson ★★★★★
(23.03.23 16:26:01 MSK)
Последнее исправление: Jameson 23.03.23 16:26:32 MSK (всего исправлений: 1)

Ссылка

А потом выяснится, что там было две страницы текста, и быстрее было руками сделать. И проще.

i-rinat ★★★★★
(23.03.23 16:34:27 MSK)

Ссылка

Ответ на: комментарий от Xintrea 23.03.23 16:19:07 MSK

он не случайный. мож у тебя там \r\n вперемешку с \n

~~uwuwuu~~
(23.03.23 16:41:12 MSK)

Ссылка

Как это можно быстро сделать?

Выучить регулярные выражения, тогда подобные задачи будут решаться очень быстро.

annulen ★★★★★
(23.03.23 22:32:42 MSK)

Ссылка

Для FAR Manager есть зачётный плагин Format Block. (Я, кстати, начал писать что-то подобное для mc, пока написал только форматтер по отдельным абзацам, тебе же, как я понимаю, нужно весь текст разом. А вот в Format Block можно выделить и обработать весь текст разом.) Я, правда, Format Block использовал только для обратной задачи — отформатировать текст по ширине, но у него куча настроек, можно глянуть.

Смущает вот это:

Причем строки переносятся не только на границах слов, но и с помощью символов переноса (символ «тире»).

Ну во-первых, если уж на то пошло, перенос внутри слов это, скорее, дефис, чем тире. Но в текстовых файлах одно часто используется вместо другого, так что это можно считать придиркой.

Гораздо хуже другое: что будет после автоликвидации переносов с такими конструкциями, как «стоп-кран», «заказ-наряд» или даже банальным «кое-как»? Видимо, получится именно «коекак». В обоих смыслах. (c) АБС

hobbit ★★★★★
(27.03.23 09:17:11 MSK)
Последнее исправление: hobbit 27.03.23 09:18:15 MSK (всего исправлений: 1)

Ответ на: комментарий от hobbit 27.03.23 09:17:11 MSK

Для FAR Manager есть зачётный плагин Format Block. (Я, кстати, начал писать что-то подобное для mc

Хм, а в mc есть API плагинов?

dataman ★★★★★
(27.03.23 09:21:28 MSK)

Ответ на: комментарий от hobbit 27.03.23 09:17:11 MSK

Видимо, получится именно «коекак».

Использовать в тексте «неразрывный дефис» или использовать в алгоритмах словари.

https://ru.wikipedia.org/wiki/Дефис

https://symbl.cc/ru/2011/ Неразрывный дефис

~~Forum0888~~
(27.03.23 09:24:23 MSK)
Последнее исправление: Forum0888 27.03.23 09:36:53 MSK (всего исправлений: 3)

Ответ на: комментарий от hobbit 27.03.23 09:17:11 MSK

P.S. А, выше для ложных переносов уже предлагали ручную вычитку. Боюсь, что для большого текста — не решение, если «бледнорозовый» уже слили, глазами его запросто можно и пропустить.

В принципе, идея — написать двухпроходный форматёр, который на первом этапе выявляет все переносы, отличные от известных ему типовых, и строит список. Пользователь по итогам этого списка пополняет «чёрный» и «белый» списки и запускает второй проход, который уже и осуществляет собственно слияние.

Но это точно не однострочник на перле.

hobbit ★★★★★
(27.03.23 09:26:01 MSK)

Ссылка

Ответ на: комментарий от dataman 27.03.23 09:21:28 MSK

Произвольных плагинов — нет. Но в mcedit есть возможность подключить внешнюю программу форматирования. Я свой текущий так и подключаю.

Правда, на какой-либо интерактивности при этом приходится поставить жирный крест, и если настройки форматёра можно брать откуда-то ещё, то с двухпроходным форматированием, которое я предложил выше — уже облом. :(

hobbit ★★★★★
(27.03.23 09:28:37 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Посоветуйте дистрибутив Linux без окружения GNU

General

Странное поведение grep

→

Похожие темы