Как сравнить 2 текстовых файла?
Файлы содержат примерно одинаковый текст, но с разными ошибками и разным форматированием. Например, в одном файле может быть «карова», а в другом на том же месте — «корово». Под форматированием я имею в виду число пробелов и табуляций между словами, число пустых строк между абзацами, разрыв одной строки на несколько. Желательно, чтобы каждая расходящаяся пара слов (или даже букв) выводилась в виде наподобие «номер строки в 1-ом файле»-«номер слова в 1-ом файле»-«номер строки во 2-ом файле»-«номер слова во 2-ом файле»-«отличающиеся слова».
diff, по идее, умеет искать расходящиеся строки, но его сбивает с толку неодинаковое разбиение на абзацы, ключ -w не помогает.
Можно порубить файлы на строки по каждому пробелу и убрать пустые строки, например, sed-ом, и сравнивать diff-ом, но это неудобно.
Как ещё можно сравнить эти файлы?
Заранее спасибо.