Доброго времени суток.
Пытаюсь разобраться с speech to text. Пока даже не пытался изучать языковые и аккустические модели, хочу сначала убедиться, что найденный метод в принципе работает и можно копать в этом направлении.
Для этого мне нужно уметь нарезать аудиофайл на куски длительностью не более 1 минуты. Как это сделать из консоли? mplayer, sox ?
З.Ы. если кому интересно,
1. python скрипт, который вроде бы должен преобразовывать raw файл в текст
import pocketsphinx as ps
hmmd = '/usr/share/pocketsphinx/model/hmm/en_US/hub4wsj_sc_8k/'
lmd = '/usr/share/pocketsphinx/model/lm/en_US/hub4.5000.DMP'
dictd = '/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic'
fRaw1 = open('test.raw', 'r')
speechRec = ps.Decoder(hmm = hmmd, lm = lmd, dict = dictd)
speechRec.decode_raw(fRaw1)
result = speechRec.get_hyp()
print result[0]
2. Преобразование аудиофайла в raw аудиофайл, который подойдёт скрипту
sox test.ogg --bits 16 --encoding signed-integer --endian little test.raw
3. Необходимые пакеты
sudo apt-get install pocketsphinx pocketsphinx-hmm-en-hub4wsj pocketsphinx-lm-en-hub4 python-pocketsphinx