Обработка Текста – Как Преобразовать Многострочный В Однострочный, Но Сохранить Абзацы

Tan9

Скажем, у меня есть куча текста (уценки), где каждое предложение находится на отдельной строке (для упрощения контроля версий в случае опечаток). Пример

  cat file.txt | ???

:

\S

Как я могу преобразовать каждый абзац в одну строку, чтобы он выглядел так:

.

Моя идея - найти и заменить новую строку \n character between a fullstop Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Dictum sit amet justo donec enim diam vulputate. Nunc faucibus a pellentesque sit amet. Quis enim lobortis scelerisque fermentum dui faucibus in. Leo duis ut diam quam nulla porttitor massa id neque. Vitae tortor condimentum lacinia quis vel eros. Velit euismod in pellentesque massa placerat duis ultricies lacus. и любой символ без пробелов Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Dictum sit amet justo donec enim diam vulputate. Nunc faucibus a pellentesque sit amet. Quis enim lobortis scelerisque fermentum dui faucibus in. Leo duis ut diam quam nulla porttitor massa id neque. Vitae tortor condimentum lacinia quis vel eros. . I've figured out how to do it in regex101 here but was wondering if there's a shorter tr/sed/awk equivalent I can use in my bash shell. Something like file.txt

#обработка текста

Lera1

   $ make paranlneg
lex  -o lex.paranlneg.c paranlneg.l
egcc -O2 -pipe    -o paranlneg lex.paranlneg.c  -ll
rm -f lex.paranlneg.c
$ perl -E 'say "a\nb\n\nc\nd"' | ./paranlneg
a b

c d
$

has a paragraph mode via the

%%

[\n][\n]+ { printf("%s", yytext); }
\n        { int c = input();

/* TODO book docs say this should return EOF on EOF ?? */

if (c == 0) {

putchar('\n');

yyterminate();

} else {

printf(" %c", c);

}

}
<<EOF>>   { putchar('\n'); yyterminate(); }

%%

int main(int argc, char *argv[])
{

return yylex();
}

EOF флаг, поэтому, если мы заменим все внутренние символы новой строки вашего lex with a space:

(?!\Z)

$ wc -l input 7 input $ perl -00 -pe 's/\n(?!\Z)/ /g' input | wc -l 3 $ bit is to not replace the newlines at the end of each paragraph, thus preserving the paragraph boundaries.

Другой вариант: input . This reveals a few tricky points, notably how to handle perlrun и всегда ли включать последнюю новую строку (как требует POSIX) и то, что вы определяете как абзац: ровно две новые строки или любое другое число?

-00

Вероятно, нужно больше тестов, чем

perl

Vladlencom

Похоже на: Ответ @thrig на основе Perl но используя GNU Awk:

  fmt -w1000 file.txt

Для быстрого решения вы можете использовать Coreutils. fmt utility with a suitably large width value:

$ gawk -vRS= '{$1=$1; printf $0 RT}' file.txt
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Dictum sit amet justo donec enim diam vulputate. Nunc faucibus a pellentesque sit amet.

Quis enim lobortis scelerisque fermentum dui faucibus in. Leo duis ut diam quam nulla porttitor massa id neque. Vitae tortor condimentum lacinia quis vel eros.

(хотя по умолчанию после каждой точки добавляется двойной пробел).

Goldfish75

ГНУ

  $ sed --null-data 's/\([^[:space:]]\)\n\([^[:space:]]\)/\1 \2/g' file.txt

based approach:

Вы можете использовать sed to replace sed персонажи с sed characters, then use $ tr '\n' '\0' <file.txt | sed 's/\o000\{2,\}/\n\n/g' | tr '\0' ' ' | sed --null-data 's/ $/\n/' изменять последовательности из двух или более последовательных <NUL> characters into a double tr символ, затем используйте <newline> to replace remaining <NUL> символы с пробелами:

sed

Вот, последний <NUL> is only needed to substitute the final remaining space with a new line.

В качестве альтернативы (и более кратко) вы можете проинструктировать <newline> to treat your file as a sequence of null-terminated lines (that is, tr считает это одной строкой) и заменяет одним пробелом все вхождения одной новой строки, перед которой и за которой следует символ, не являющийся пробелом:

sed

Это также сохранит вертикальный интервал между абзацами, то есть количество последовательных новых строк. Я предпочитал искать символ, не являющийся пробелом (вместо точки), за которым следовала новая строка, просто чтобы обработать случай, когда предложение не заканчивается точкой.

Похожие темы	Дата
Release Hera - Устройство Чтения Карт Realtek Rts5129 Не Работает	19.12.2024, 05:12
Установка Программного Обеспечения — Как Удалить Libre Office 6.2?	19.12.2024, 05:12
Установите Apache, Php И Mysql На Centos Vps.	19.12.2024, 05:12
Скриптинг - Шебанг И Путь	19.12.2024, 05:12
Администрирование. Стандартизированы Ли Базовые Утилиты Системного Администратора, Такие Как Useradd Или Adduser?	19.12.2024, 05:12
Шифрование - Алгоритм Извлечения Ключа Ssh	19.12.2024, 05:12
Linux — Переменная Внутри Массива Curl	19.12.2024, 05:12
Ssh — Можно Ли Показывать Открытый/Пересылаемый Сеанс В Kde?	19.12.2024, 05:12
Stty — Как Запретить Последовательный Прием Во Время Последовательной Записи Для Последовательной Линии Rs485 (Полудуплексной)	19.12.2024, 05:12
Отправка Zip-Файлов С Помощью Команды Mailx	19.12.2024, 05:12

Обработка Текста – Как Преобразовать Многострочный В Однострочный, Но Сохранить Абзацы

Tan9

Lera1

Vladlencom

Goldfish75

I AM

Интересно