Bash awk редактор субтитров
Нужна срочная оплачиваемая помощь
titulky.sh -d dict1 -d dict2 -d dictn file1 file2 file3
где -d dict1 сообщает вашей программе, что текстовый файл dict1 должен быть загружен как словарь, который будет использован дальше . А остальные файлы file1 ... fileN загружаются как субтитры к фильмам. Которые даны в таком формате:
{20758}{20930}HELLO WORLD, BILL IS A YELLOW EXCAVATOR FROM USA. BUT|OUR JANE IS TOO!
где первые два числа без пробелов, заключенных в {a}, указывают начальный и конечный кадры субтитров сразу после (без пробела), за которыми следуют слова субтитров, которые содержат буквы английского алфавита и символы из набора,!?.
Ваша задача - отредактировать file1 ... filen файлы, чтобы они выглядели так: {20758}{20930}Hello world, Bill is a yellow excavator from USA. But|our Jane is too!
Так что делайте все в нижнем регистре, за исключением начала предложений, имен собственных (Джейн) и сокращений (США). Но у него есть подвох - Bill. «Bill» также переводится как счет, и поэтому слово «БИЛЛ» не может решить, будет ли он большим или маленьким. В этом случае ваша программа должна записать в журнал или вывод, что в этой строке он не уверен, и оставить «Bill».
slovo s slovo2 v slovo3 sv ZKRTKA MUDr. knife s knives read v reads read read
Если первый столбец - это слово в «голой» форме, второй столбец - это все части речи, которые могут быть существительным, глаголом и другими (это интересно).
Если слово неправильное и является существительным, оно имеет еще одно слово (knives) которая является формой множественного числа.
Для обычных существительных мы всегда используем окончание -s или -es (если слово оканчивается на -s, -sh, -x) или или -ies, если слово оканчивается на -y и до того, как y является согласной (согласная SK).
Сокращения в словарях, мы можем узнать потому что они не содержат никаких дополнительных слов в строке. (например, MUDR. или ZKRTKA)
Перемещено beastie из development