Есть 3 больших словаря в формате DSL (~100000 статей, ~50M). Два почти идентичны, в третьем большая часть статей тоже совпадает с ними (может, 60%, может 90%, не знаю). Требуется, во-первых, сделать файлы с общими и с различающимися статьями, во-вторых, собрать их в один словарь. Есть ли готовые линуксовые инструменты для их сравнения и склейки с сортировкой?
Или может есть для других форматов, куда можно сконвертировать DSL?
DSL — один из форматов словарей Lingvo, также поддерживаемый открыто-свободными программами. Текстовый. Файл словаря — несколько строк заголовка и куча статей, в которых 1-я строка — название, а последующие начинаются с TAB. Пример словарной статьи:
corundum
\[[t]°†'Ї….¬†Ґ[/t]\]
[m1][p][i][c][com]сущ.[/i][/p]; [p][i]геол.[/com][/c][/i][/p][/m]
[m1][trn]корунд, наждак[/trn][/m]
[m1][*][b]Syn:[/b][/*][/m]
[m1][*][ref]emery[/ref], [ref]diamond spar[/ref][/*][/m]
Чем такое лучше сравнивать? Помимо самописного скрипта на Питоне/Перле/чём-то ещё скриптовом.