LINUX.ORG.RU

История изменений

Исправление Obezyan, (текущая версия) :

from transformers import VitsModel, AutoTokenizer
import torch
import scipy

model = VitsModel.from_pretrained("facebook/mms-tts-rus")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-rus")

text = "Здравствуйте, вас беспокоят из службы безопасности Сбербанка."
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform
    scipy.io.wavfile.write("call.wav", rate=model.config.sampling_rate, data=output)

Если нужно прям свой голос во что-то конкретное, например, Жириновского, то есть вот это можно готовые сети использовать, можно под конкретного персонажа обучить, достаточно 10 мин записи голоса.

Исходная версия Obezyan, :

from transformers import VitsModel, AutoTokenizer
import torch
import scipy

model = VitsModel.from_pretrained("facebook/mms-tts-rus")
tokenizer = AutoTokenizer.from_pretrained("facebook/mms-tts-rus")

text = "Здравствуйте, вас беспокоят из службы безопасности Сбербанка."
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform
    scipy.io.wavfile.write("call.wav", rate=model.config.sampling_rate, data=output)