Spaces:

Aniemore
/

Russian-Emotion-Recognition

Build error

Ar4ikov commited on Jun 9, 2022

Commit

1ebf1c8

•

1 Parent(s): 9585e6d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,15 +12,15 @@ import numpy as np
 import subprocess
-def speech_file_to_array_fn(path, sampling_rate):
-    speech_array, _sampling_rate = torchaudio.load(path)
-    resampler = torchaudio.transforms.Resample(_sampling_rate)
     speech = resampler(speech_array).squeeze().numpy()
     return speech
-def predict(speech, sampling_rate):
-    inputs = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
     inputs = {key: inputs[key].to(device) for key in inputs}
     with torch.no_grad():
@@ -32,6 +32,7 @@ def predict(speech, sampling_rate):
 TRUST = True
 config = AutoConfig.from_pretrained('Aniemore/wav2vec2-xlsr-53-russian-emotion-recognition', trust_remote_code=TRUST)
 model = AutoModel.from_pretrained("Aniemore/wav2vec2-xlsr-53-russian-emotion-recognition", trust_remote_code=TRUST)
@@ -42,8 +43,8 @@ model.to(device)
 def transcribe(audio):
-    print(audio)
-    return predict(audio, 16000)
 def get_asr_interface():

 import subprocess
+def resample(speech_array, sampling_rate):
+    resampler = torchaudio.transforms.Resample(sampling_rate)
     speech = resampler(speech_array).squeeze().numpy()
     return speech
+def predict(speech_array, sampling_rate):
+    speech = resample(speech_array, sampling_rate)
+    inputs = feature_extactor(speech, sampling_rate=SR, return_tensors="pt", padding=True)
     inputs = {key: inputs[key].to(device) for key in inputs}
     with torch.no_grad():
 TRUST = True
+SR = 16000
 config = AutoConfig.from_pretrained('Aniemore/wav2vec2-xlsr-53-russian-emotion-recognition', trust_remote_code=TRUST)
 model = AutoModel.from_pretrained("Aniemore/wav2vec2-xlsr-53-russian-emotion-recognition", trust_remote_code=TRUST)
 def transcribe(audio):
+    sr, audio = audio[0], audio[1]
+    return predict(audio, sr)
 def get_asr_interface():