Spaces:

LiKenun
/

ai-building-blocks

Running on Zero

LiKenun commited on Nov 2

Commit

caf2559

1 Parent(s): c328580

Add text-to-speech (TTS) sample

Files changed (3) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from huggingface_hub import InferenceClient
 from image_classification import image_classification
 from image_to_text import image_to_text
 from text_to_image import text_to_image
 from utils import request_image
@@ -62,6 +63,16 @@ class App:
                         inputs=image_classification_image_input,
                         outputs=image_classification_output
                     )
             demo.launch()

 from image_classification import image_classification
 from image_to_text import image_to_text
 from text_to_image import text_to_image
+from text_to_speech import text_to_speech
 from utils import request_image
                         inputs=image_classification_image_input,
                         outputs=image_classification_output
                     )
+                with gr.Tab("Text-to-speech (TTS)"):
+                    gr.Markdown("Generate speech from a text.")
+                    text_to_speech_text = gr.Textbox(label="Text")
+                    text_to_speech_generate_button = gr.Button("Generate")
+                    text_to_speech_output = gr.Audio(label="Speech")
+                    text_to_speech_generate_button.click(
+                        fn=text_to_speech,
+                        inputs=text_to_speech_text,
+                        outputs=text_to_speech_output
+                    )
             demo.launch()

requirements.txt CHANGED Viewed

@@ -5,3 +5,6 @@ pandas>=2.0.0
 pillow>=10.0.0
 requests>=2.31.0
 transformers>=4.40.0

 pillow>=10.0.0
 requests>=2.31.0
 transformers>=4.40.0
+timm>=1.0.0
+inflect>=7.0.0
+phonemizer>=3.0.0

text_to_speech.py ADDED Viewed

+import gc
+from transformers import pipeline
+from utils import spaces_gpu
+@spaces_gpu
+def text_to_speech(text: str) -> tuple[int, bytes]:
+    narrator = pipeline("text-to-speech", "kakao-enterprise/vits-ljs")
+    del narrator
+    gc.collect()
+    result = narrator(text)
+    return (result["sampling_rate"], result["audio"][0])