E2-F5-TTS

Running

mrfakename commited on 19 days ago

Commit

4064aae

•

1 Parent(s): 14d6715

Sync from GitHub repo

This Space is synced from the GitHub repo: https://github.com/SWivid/F5-TTS. Please submit contributions to the Space there

Files changed (3) hide show

app.py CHANGED Viewed

@@ -158,9 +158,8 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, exp_name, remove_silence,
         # Calculate duration
         ref_audio_len = audio.shape[-1] // hop_length
-        zh_pause_punc = r"。，、；：？！"
-        ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
-        gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
         duration = ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed)
         # inference

         # Calculate duration
         ref_audio_len = audio.shape[-1] // hop_length
+        ref_text_len = len(ref_text.encode('utf-8'))
+        gen_text_len = len(gen_text.encode('utf-8'))
         duration = ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed)
         # inference

inference-cli.py CHANGED Viewed

@@ -250,9 +250,8 @@ def infer_batch(ref_audio, ref_text, gen_text_batches, model,ckpt_file,file_voca
         # Calculate duration
         ref_audio_len = audio.shape[-1] // hop_length
-        zh_pause_punc = r"。，、；：？！"
-        ref_text_len = len(ref_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, ref_text))
-        gen_text_len = len(gen_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gen_text))
         duration = ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed)
         # inference

         # Calculate duration
         ref_audio_len = audio.shape[-1] // hop_length
+        ref_text_len = len(ref_text.encode('utf-8'))
+        gen_text_len = len(gen_text.encode('utf-8'))
         duration = ref_audio_len + int(ref_audio_len / ref_text_len * gen_text_len / speed)
         # inference

model/utils.py CHANGED Viewed

@@ -296,9 +296,8 @@ def get_inference_prompt(
             # # test vocoder resynthesis
             # ref_audio = gt_audio
         else:
-            zh_pause_punc = r"。，、；：？！"
-            ref_text_len = len(prompt_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, prompt_text))
-            gen_text_len = len(gt_text.encode('utf-8')) + 3 * len(re.findall(zh_pause_punc, gt_text))
             total_mel_len = ref_mel_len + int(ref_mel_len / ref_text_len * gen_text_len / speed)
         # to mel spectrogram

             # # test vocoder resynthesis
             # ref_audio = gt_audio
         else:
+            ref_text_len = len(prompt_text.encode('utf-8'))
+            gen_text_len = len(gt_text.encode('utf-8'))
             total_mel_len = ref_mel_len + int(ref_mel_len / ref_text_len * gen_text_len / speed)
         # to mel spectrogram