Spaces:

vihangp
/

marathi-park-speaker

Paused

vihangp commited on May 15

Commit

ff3710a

•

1 Parent(s): 5eb978f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,14 +22,14 @@ models_per_language = {
     "marathi": ["ylacombe/mms-mar-finetuned-monospeaker"]
 }
-HUB_PATH = "ylacombe/vits_ljs_midlands_male_monospeaker"
 pipe_dict = {
-    "current_model": "ylacombe/vits_ljs_midlands_male_monospeaker",
     "pipe":  pipeline("text-to-speech", model=HUB_PATH, device=0),
     "original_pipe": pipeline("text-to-speech", model=default_model_per_language["marathi"], device=0),
-    "language": "english",
 }
 title =      """
@@ -58,7 +58,7 @@ def generate_audio(text, model_id, language):
     out = []
     # first generate original model result
     output = pipe_dict["original_pipe"](text)
-    output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=False, label=f"Non finetuned model prediction {default_model_per_language[language]}", show_label=True,
                                visible=True)
     out.append(output)
@@ -74,7 +74,7 @@ def generate_audio(text, model_id, language):
         out.extend([gr.Audio(visible=False)]*(max_speakers-num_speakers))
     else:
         output = pipe_dict["pipe"](text)
-        output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=False, label="Generated Audio - Mono speaker", show_label=True,
                                visible=True)
         out.append(output)
         out.extend([gr.Audio(visible=False)]*(max_speakers-2))

     "marathi": ["ylacombe/mms-mar-finetuned-monospeaker"]
 }
+HUB_PATH = "ylacombe/mms-mar-finetuned-monospeaker"
 pipe_dict = {
+    "current_model": "ylacombe/mms-mar-finetuned-monospeaker",
     "pipe":  pipeline("text-to-speech", model=HUB_PATH, device=0),
     "original_pipe": pipeline("text-to-speech", model=default_model_per_language["marathi"], device=0),
+    "language": "marathi",
 }
 title =      """
     out = []
     # first generate original model result
     output = pipe_dict["original_pipe"](text)
+    output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label=f"Non finetuned model prediction {default_model_per_language[language]}", show_label=True,
                                visible=True)
     out.append(output)
         out.extend([gr.Audio(visible=False)]*(max_speakers-num_speakers))
     else:
         output = pipe_dict["pipe"](text)
+        output =  gr.Audio(value = (output["sampling_rate"], output["audio"].squeeze()), type="numpy", autoplay=True, label="Generated Audio - Mono speaker", show_label=True,
                                visible=True)
         out.append(output)
         out.extend([gr.Audio(visible=False)]*(max_speakers-2))