Spaces:

Abrahamau
/

gradiotest

Sleeping

Abrahamau commited on Dec 22, 2024

Commit

6d21195

verified ·

1 Parent(s): 1269470

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,17 +27,14 @@ def guessanAge(model, image):
 @spaces.GPU(duration=120)
 def text2speech(model, text, voice):
-    print(model, text, voice)
     if len(text) > 0:
-        processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-        model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
-        vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-        inputs = processor(text=text, return_tensors="pt")
         embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
         speaker_embedding = torch.tensor(embeddings_dataset[voice]["xvector"]).unsqueeze(0)
-        speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
         audio_data = np.frombuffer(speech["audio"], dtype=np.float32)
         audio_data_16bit = (audio_data * 32767).astype(np.int16)
         return speech["sampling_rate"], audio_data_16bit

 @spaces.GPU(duration=120)
 def text2speech(model, text, voice):
+    print(voice)
     if len(text) > 0:
+        synthesiser = pipeline("text-to-speech", model=model)
         embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
         speaker_embedding = torch.tensor(embeddings_dataset[voice]["xvector"]).unsqueeze(0)
+        speech = synthesiser(text, forward_params={"speaker_embeddings": speaker_embedding})
         audio_data = np.frombuffer(speech["audio"], dtype=np.float32)
         audio_data_16bit = (audio_data * 32767).astype(np.int16)
         return speech["sampling_rate"], audio_data_16bit