История изменений
Исправление Obezyan, (текущая версия) :
from transformers import VitsModel, AutoTokenizer
import torch
import scipy
model = VitsModel.from_pretrained("facebook/mms-tts-rus")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-rus")
text = "Здравствуйте, вас беспокоят из службы безопасности Сбербанка."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
output = model(**inputs).waveform
scipy.io.wavfile.write("call.wav", rate=model.config.sampling_rate, data=output)
Если нужно прям свой голос во что-то конкретное, например, Жириновского, то есть вот это можно готовые сети использовать, можно под конкретного персонажа обучить, достаточно 10 мин записи голоса.
Исходная версия Obezyan, :
from transformers import VitsModel, AutoTokenizer
import torch
import scipy
model = VitsModel.from_pretrained("facebook/mms-tts-rus")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-rus")
text = "Здравствуйте, вас беспокоят из службы безопасности Сбербанка."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
output = model(**inputs).waveform
scipy.io.wavfile.write("call.wav", rate=model.config.sampling_rate, data=output)