LINUX.ORG.RU

Menestrel — приложение для озвучивания текстов на русском языке

 , menestrel, skomoroh,


0

5

Menestrel — приложение для озвучивания текстовых документов, веб-страниц и электронных книг на русском языке, разработанная на основе синтезаторов речи Festival и ru_tts.

Menestrel поддерживает следующие форматы файлов:

  • обычные текстовые файлы с кодировками UTF-8, CP1251, KOI8-R, ISO-8859-5;
  • HTML-файлы;
  • файлы в формате OpenDocument (ODT);
  • файлы в формате Microsoft Document (DOC);
  • файлы в формате FictionBook (FB2)

Файлы всех вышеперечисленных форматов могут быть предварительно помещены в ZIP-архив.

Основные возможности приложения:

  • озвучивание:
    • файлов указанных выше форматов;
    • скопированных и вставленных в поле воспроизведения фрагментов текста;
    • набранных в поле воспроизведения текстов (с возможностью сохранения набранного);
  • отображение произносимого текста в окне программы и выделение произносимого предложения;
  • сохранение при завершении работы и восстановление при следующем запуске позиции маркера, в которой было завершено озвучивание;
  • установка неограниченного числа закладок и переход по ним, поиск текста;
  • импорт произнесённого текста в звуковые файлы формата WAV или MP3 и списка воспроизведения для использования в качестве аудио-книг.

Проект состоит из двух приложений: Menestrel и Skomoroh, разница между ними в том, что Menestrel основан на базе синтезатора речи Festival, а Skomoroh — на базе синтезатора речи ru_tts.

Приложения написаны на С++ с использованием Qt 4.7 в интегрированной среде разработки QtCreator 2.1.

Благодаря кроссплатформенности Festival, Menestrel доступен как в версии для Linux, так и для Windows.
Skomoroh поставляется исключительно для Linux.

Все исходные тексты в виде проектов QtCreator размещены на странице проекта на sourceforge.

Страница проекта на sourceforgre

>>> Официальный сайт проекта



Проверено: post-factum ()
Последнее исправление: adriano32 (всего исправлений: 5)
Ответ на: комментарий от anonymous

прямо в лоб

Фестиваль не замечает и неинтонирует ! и ? и поэтому в программе я ввел возможность эти знаки озвучивать. Опция может быть отключена в меню настроек.

rybusha
() автор топика
Ответ на: комментарий от webhamster

>А когда ты увидишь, что в андроиде гугл умеет четко распознавать разговорную речь любого человека, ты вообще поймешь что безнадежно отстал от жизни.

это все в голове не укладывается :)

Corey
()

>Menestrel поддерживает следующие форматы файлов: обычные текстовые файлы с кодировками UTF-8, CP1251, KOI8-R, ISO-8859-5;

IBM866 не поддерживает, «а они ещё борятся за звание дома с высокой культурой быта.»(с)

Napilnik ★★★★★
()
Ответ на: комментарий от webhamster

>А когда ты увидишь, что в андроиде гугл умеет четко распознавать разговорную речь любого человека,

Во первых, не в андройде. В андройде неонка с тумблером, только клиент, который оцифровывает речь и шлет ее в гугле м затем получает текст.

Во вторых, распознование в андройде по словарю. Например, распознование адреса работает относительно неплохо. Если адрес широкоупотребительный. А если начнешь ему наговаривать войну и мир - он там такое распознает, что просто мрак...

AVL2 ★★★★★
()
Ответ на: комментарий от AVL2

>> А когда ты увидишь, что в андроиде гугл умеет четко распознавать разговорную речь любого человека,

Во первых, не в андройде. В андройде неонка с тумблером, только клиент, который оцифровывает речь и шлет ее в гугле м затем получает текст.

Я знаю об этом.

Во вторых, распознование в андройде по словарю. Например, распознование адреса работает относительно неплохо. Если адрес широкоупотребительный. А если начнешь ему наговаривать войну и мир - он там такое распознает, что просто мрак...

Да ладно, распознает на раз любой поисковый запрос. Специально тестировал с разными людьми разные фразы - это просто чудо какое-то. Даже не нужно отдельно слова произносить, свободно распознает слитную речь.

webhamster
()
Ответ на: комментарий от webhamster

Берем гуглофон и делаем пост на ЛОРе начитывая его полностью голосом.
Смотрим на результаты.
Осознаем что у гугла распознавание все таки по словарю.
Конечно, лучше вроде еще никто не предложил, но тем не менее, не фонтан.
Причем результаты от повторения меняются слабо.
-----------
Соответственно, этот пост уже с клавы.

Stinky
()

а он умеет нормально справляться с английскими словами в тексте? всегда во всех читалках эта проблема больше всего раздражала.

vasaka ★★★
()
Ответ на: комментарий от az

http://vitalvoice.ru/demo/?Key=file9_57c33791a254b9eb9025

Интонации различимы только у Владимира. Да и поживее он остальных. Но сравнивать с фестивалем конечно же смешно и нелепо, совершенно разного класса продукты.

baverman ★★★
()
Ответ на: комментарий от anonymous

А IBM866 разве других обозначений не имеет? Если поискать, то выяснится, что поддерживает.

rybusha
() автор топика
Ответ на: комментарий от baverman

Вообще-то мне больше всех понравились андродовские русские голоса в swox : Светлана и Юркий. Но в паркете они не бесплатные, хотя стоят чуть больше 100 руб. каждый, а сам swox бесплатен. Если бы у vitalvoice были те же цены для линукса, или хотя бы линуксового движка Tyson с голосами, наверное я с Фестивалем не возился.

rybusha
() автор топика

Можно подойти к синтезу речи совсем с другой стороны. Можно сделать физическую симуляцию голосового аппарата. Это могло бы дать вполне красивую связную речь. Правда, пришлось бы ещё с интонациями разбираться.

Sadler ★★★
()
Ответ на: комментарий от Stinky

я по невнимательности удалил твой пост с демонстрацией работы гугловского движка

JB ★★★★★
()
Ответ на: комментарий от Sadler

Можно сделать физическую симуляцию голосового аппарата

А можно забацать, сравнимый с человеческим, искусственный интеллект — тоже ничего сложного.

baverman ★★★
()
Ответ на: комментарий от baverman

> А можно забацать, сравнимый с человеческим, искусственный интеллект — тоже ничего сложного.

Ну вперёд, чего же ты ждёшь?

Sadler ★★★
()

У офф сайта правильный дизайн. А вообще-то я под линукс не видел программ чтения голосом по русски. А тут какойто ru_tts упомянут...

anonymous
()
Ответ на: комментарий от vasaka

а он умеет нормально справляться с английскими словами в тексте?

В режиме транслита он воспринимает латиницу, поэтому на латиницу он не молчит и часто удается понять, что имелось ввиду.

rybusha
() автор топика

вот - фичреквест, возможность для английских слов автоматически подставлять их фонетическую запись на русском, чтобы хотя бы с акцентом, но правильно произносило.

vasaka ★★★
()
Ответ на: комментарий от Led

Если на "русском", тогда почему "менестрель", а не "скоморох"?

Как раз первым, на чем я пробовал написать читалку это был движок ru_tts, на нем было проще делать, и это присутствует в проекте и как раз называется Скоморох.

rybusha
() автор топика
Ответ на: комментарий от anonymous

Когда я вижу программу предназначенную для работы с одним языком, то от ярости

Если-бы я был эстонцем или финном, то я писал-бы программу для чтения книг на этих, похожих между собой, языков. Но я этих языков не не знаю и книг на них не читаю, да и по английски на слух я не очень воспринимаю, поэтому все на одном, русском языке, но русскоязычные иностранцы могут спокойно пользоваться этой программой для любых других языков, поддерживаемых Фестивалем. Так как есть исходные тексты, можно интерфейс перевести на любой язык, в перспективе введу транслингву, и можно будет делать интерфейс на любом языке. Фестиваль имеет средства создания других дикторов и, к стати, русского диктора msu_ru_nsh_clunits создал средствами Фестиваля вовсе не ученый из области IT, или речевых технологий, а вообще не профессионал, просто умеющий работать с компьютером, что неплохо характеризует потенциал Фестиваля. Ведь голос получился не намного хуже чем у коллектива ученых, профессионалов IT и речевых технологий из Центра Речевых Технологий из Санкт-Петербурга

rybusha
() автор топика
Ответ на: комментарий от anonymous

Скажите пожалуйста, нафига там куте?

А что надо? Могу, конечно сказать- «потому что позволяет делать кросс-платформенные приложения», но это не правда. Просто последнее время приходится делать в основном кросс-платформенные программы (Linux, Windows, HP-UX ...), и поэтому на моем рабочем месте все заточено на разработку под Qt, вот и использовал, мне это было удобней- есть средства разработки и свежие навыки.

rybusha
() автор топика
Ответ на: комментарий от vasaka

на мой вкус даже переключение на другой голос было бы лучше.

Вот Вы и дали направление, для дальнейшего развития проекта. В принципе проще сделать разметку текста переходов с языка на язык, чем писать словарь для фонетической записи на русском языке английских слов, но даже в текущем режиме при чтении художественных книг я пока не ощутил такой необходимости, но понимаю, что такая проблема может быть.

rybusha
() автор топика

Мне одному этот «список фич» напоминает студенческую лабораторку, где для препода нужно написать 10 «преимуществ» собственной функции синус?
(извините за длинную аллегорию)
В том плане, что фичи - натянутый за уши ОТСТОЙ.
ЛЮБОЙ текст, так или иначе сидящий в компе - это уже не «фича», а доступные буквы, чего про них писать?? Куда интереснее смотрелись бы, например, «может озвучивать текущую страницу в браузере по горячей клавише».
Новость - УГ, удаляйте.

matumba ★★★★★
()
Ответ на: комментарий от Sadler

> Можно сделать физическую симуляцию голосового аппарата.

Уже давно сделано, проскакивало на задрохабре (симулятор, кстати, сильно напоминает вагину :)) ).
Другой вопрос, что ни один симулятор не решает проблемы правильного приглушения или замены звуков. Например: «молоко» - ни один симулятор не «дотумкает», что первую «о» произносят чуть ли не как «э» (очень краткую), а вторую - как «а», при этом оставляя «чистое» «о» в конце: «мэлако». А чтобы «дотумкать», придётся проделать поистине ТИТАНИЧЕСКУЮ работу целым лингвофакультетом, чтобы пометить в словах «правильные» искажения. А теперь сравните это с этой смешной наколенкой - смех и грех.

matumba ★★★★★
()
Ответ на: комментарий от matumba

> А теперь сравните это с этой смешной наколенкой - смех и грех.

Да причём тут эта наколенка? Исследование проводить не обязательно, можно просто шаблоны задавать под конкретные слова, вручную указывать, что где глушить. Вот и вся недолга.

Нет, не запарюсь. В русском, как и в других языках, можно выделить самые употребимые слова.

Sadler ★★★
()
Ответ на: комментарий от az

> Вот,для сравнения, как говорит коммерческая система.

Я ниструя не услышал. Может, гениальный вебдизайнер не поленится написать, ЧТО должно быть включено в браузере, чтобы услышать дивный голос электроболталки? (я вообще думал, он мне MP3 пришлёт - могли бы догадаться сделать!)
Пробовал в Опере 11.50 и Хроме 14.0.835.8

matumba ★★★★★
()
Ответ на: комментарий от Sadler

> вручную указывать, что где глушить.

Ровно это и должна сделать целая команда лингвистов (перечитайте коммент). Это аццкий труд, никаких исследований там не нужно, но нужны профессионалы языка.

можно выделить самые употребимые слова.


Спасибо, смешно. А остальные слова читать как робот Вертер? :)
Даже если это тыщ 40 слов (нормальный, взрослый лексикон), на каждое слово придётся порядка 2-5 «особенностей» (уже умножили?). И это не считая самой слитной речи! (например, слитное произношение предлогов: «к окну»; интонация перед запятой и в конце предложения; вводные предложения; произношение слова в зависимости от предыдущего и т.п.)
Грю же - чтобы сносно «говорить», нужна чёртова уйма атрибутов. Не даром до сих пор нет вразумительных средств - большой объём работ не компенсируется отдачей.

matumba ★★★★★
()
Ответ на: комментарий от Sadler

Вот и вся недолга.

Ты опять нихрена не разбираешься в предмете (кстати, как там поживает принципиально новый gc) и лезешь с предложениями уровня: «ученые 50 лет щи лаптем хлебали, а я один тут д'Артаньян, можно же сделать так…»

baverman ★★★
()
Ответ на: комментарий от baverman

> Ты опять нихрена не разбираешься в предмете (кстати, как там поживает принципиально новый gc) и лезешь с предложениями уровня: «ученые 50 лет щи лаптем хлебали, а я один тут д'Артаньян, можно же сделать так…»

Ну конечно. Один ты умный.

Sadler ★★★
()
Ответ на: комментарий от Sadler

Моего умишки хватает, по крайней мере, оценить сложность задачи и ее принципиальную выполнимость.

В отличие от ОРШ.

baverman ★★★
()
Ответ на: комментарий от baverman

> Моего умишки хватает, по крайней мере, оценить сложность задачи и ее принципиальную выполнимость.

Поэтому твой умишко так и не займётся ничем дельным, ведь всё «архисложно и требует десятки лет». А я, может быть, в конечном счёте таки найду то, что другие просмотрели.

Sadler ★★★
()
Ответ на: комментарий от Sadler

Поэтому твой умишко так и не займётся ничем дельным

Ололо. Учись лучше, и читай умные книжки, вместо затыкания всех дырок.

baverman ★★★
()
Ответ на: комментарий от matumba

Куда интереснее смотрелись бы, например, "может озвучивать текущую страницу в браузере по горячей клавише"

Если Вам не интересно слушать художественные книги во время какой-нибудь рутинной работе, то Вам действительно это не надо, зачем трудились, читали, комментарий писали? А вот как раз «может озвучивать текущую страницу в браузере по горячей клавише» для этого и программы писать не надо, можно скрипт сделать, в интернете таких скриптов пруд-пруди. И на открытие крышки, и чтение почты и т.д.

rybusha
() автор топика
Ответ на: комментарий от baverman

> Ололо. Учись лучше, и читай умные книжки, вместо затыкания всех дырок.

Одно другому не мешает.

Sadler ★★★
()

Вы написали полную белиберду, даже не вникая в суть претензии.
Кратко, как для школоло: текущие «возможности» скомороха - убоги и неудобны. Если всё её предназначение - «слушать любимые книги», так и нужно писать: «Только для чтения книг! Хотите по-человечески использовать в любой программе? Становитесь красноглизиком и пишите скрипты!».

matumba ★★★★★
()
Ответ на: комментарий от zenden

Мда, смахивает на курсовую работу студента, причем не очень успевающего.

Спасибо за добрый комментарий.

rybusha
() автор топика

> Спасибо за добрый комментарий.

Не думаю, что этот человек хотел Вас обидеть. У меня тоже сложилось подобное впечатление. Это значит только то, что программа ещё нуждается в доработке, а никак не то, что Вы никудышный программист.

Sadler ★★★
()
Ответ на: комментарий от matumba

текущие "возможности" скомороха - убоги и неудобны

>если всё её предназначение - «слушать любимые книги», так и нужно писать: «Только для чтения книг!»

Так по моему в цели проекта так и написано. А чем Вам не нравится Orca, которая стандартно присутствует во многих репозитариях. Помоему она решает Ваши проблемы из графики, и глазки будут синие-синие.

rybusha
() автор топика
Ответ на: комментарий от Sadler

Это значит только то, что программа ещё нуждается в доработке

Спасибо! Я это понимаю, но программа выполняет поставленную задачу и мне и моим знакомым этот вариант нравится, но я единственный разработчик с минимальным числом тестировщиков- поэтому я и создал эту новость и получил стимул для развития-(мультилингвальность интерфейса, автоматическое переключение на английский голос и обратно).

rybusha
() автор топика
Ответ на: комментарий от baverman

> http://vitalvoice.ru/demo/?Key=file9_57c33791a254b9eb9025

Интонации различимы только у Владимира. Да и поживее он остальных. Но сравнивать с фестивалем конечно же смешно и нелепо, совершенно разного класса продукты.

А мне как-то женские голоса больше нравятся:) Вот здесь, кстати, куча интересных озвучек: http://voicefabric.ru/

az
()
Ответ на: комментарий от az

Вот здесь, кстати, куча интересных озвучек: http://voicefabric.ru/

Нириально. Пожалуй, с таким синтезом можно действительно слушать книги.

baverman ★★★
()

удачи проекту и автору!

Как правило самые злобные комментаторы - дети (вне зависимости от возраста) и завистники. Комментарии первых нельзя принимать пмолностью всерьёз, а вторые своими всплесками помогают увидеть наиболее серьёзные недостатки.

Позже отыщу время чтоб попробовать. Хотелось-бы иметь возможность прикручивать синтез речи к PSI и Pidgin - как на события, так и на приходящие реплики.

Желаю автору и его программе успешной разработки! Буду ждать появления программы в репозитории Fedora! ;-)

Удачи!

P.S. Павлушенька я, Недосыпов

anonymous
()
Ответ на: комментарий от matumba

А в чем проблема? Все это давно изучено. Вообще русская фонетика довольно регулярна: для абсолютного большинства слов правило «начальный или предударный а/о редуцируется до ɐ, остальные безударные до ə, ударный не редуцируется» подходит идеально.

anonymous
()
Ответ на: комментарий от zenden

Всегда пожалуйста

Если не нравится, то чем просто бросаться словами, типа «дерьмо»- скажите, что не так, что не нравится. А так складывается о таких людях впечатление, как о птичках- прилетела, накакала и улитела, ни радости, ни пользы- один запах.

rybusha
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.