Spaces:

jasspier
/

asr_arena

Runtime error

jasspier commited on May 27

Commit

71b0e8e

•

1 Parent(s): 7cc4a72

Update app.py (#1)

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,22 +1,30 @@
 import gradio as gr
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import torch
-import librosa
-# 加载模型和处理器
-model_name = "Tele-AI/TeleSpeech-ASR1.0"
-processor = Wav2Vec2Processor.from_pretrained(model_name)
-model = Wav2Vec2ForCTC.from_pretrained(model_name)
 # 定义处理函数
 def transcribe(audio):
-    waveform, rate = librosa.load(audio, sr=16000)
-    input_values = processor(waveform, return_tensors="pt", padding="longest").input_values
     with torch.no_grad():
-        logits = model(input_values).logits
     predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = processor.batch_decode(predicted_ids)
-    return transcription[0]
 # 创建 Gradio 界面
 iface = gr.Interface(

 import gradio as gr
 import torch
+import torchaudio
+from torchaudio.transforms import Resample
+# 定义模型路径
+model_path = "https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0/resolve/main/large.pt"
+# 下载模型文件
+torch.hub.download_url_to_file(model_path, 'large.pt')
+# 加载模型
+model = torch.jit.load('large.pt')
+model.eval()
 # 定义处理函数
 def transcribe(audio):
+    waveform, sample_rate = torchaudio.load(audio)
+    resample = Resample(orig_freq=sample_rate, new_freq=16000)
+    waveform = resample(waveform)
+    input_values = waveform.unsqueeze(0)
     with torch.no_grad():
+        logits = model(input_values)
     predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = tokenizer.decode(predicted_ids[0])
+    return transcription
 # 创建 Gradio 界面
 iface = gr.Interface(