patrickvonplaten
/

wav2vec2-large-xlsr-53-spanish-with-lm

Automatic Speech Recognition

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

patrickvonplaten commited on Dec 8, 2021

Commit

873b685

•

1 Parent(s): f272fb3

Update README.md

Files changed (1) hide show

README.md +9 -12

README.md CHANGED Viewed

@@ -28,20 +28,18 @@ The only change from the existing ASR pipeline will be:
 ```diff
 import torch
-import torchaudio.functional as F
--from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
-+from transformers import Wav2Vec2ForCTC, Wav2Vec2ProcessorWithLM
 from datasets import load_dataset
-ds = load_dataset("common_voice", "es", split="test", streaming=True)
-sample = next(iter(ds))
-resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).n
-model = Wav2Vec2ForCTC.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
--processor = Wav2Vec2Processor.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
-+processor = Wav2Vec2ProcessorWithLM.from_pretrained("patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm")
 input_values = processor(resampled_audio, return_tensors="pt").input_values
@@ -50,9 +48,8 @@ with torch.no_grad():
 -prediction_ids = torch.argmax(logits, dim=-1)
 -transcription = processor.batch_decode(prediction_ids)
-+transcription = processor.batch_decode(logits.cpu().numpy()).text
-print(transcription)
 ```
 **Improvement**

 ```diff
 import torch
 from datasets import load_dataset
+from transformers import AutoModelForCTC, AutoProcessor
+import torchaudio.functional as F
+model_id = "patrickvonplaten/wav2vec2-large-xlsr-53-spanish-with-lm"
+sample = next(iter(load_dataset("common_voice", "es", split="test", streaming=True)))
+resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
+model = AutoModelForCTC.from_pretrained(model_id)
+processor = AutoProcessor.from_pretrained(model_id)
 input_values = processor(resampled_audio, return_tensors="pt").input_values
 -prediction_ids = torch.argmax(logits, dim=-1)
 -transcription = processor.batch_decode(prediction_ids)
++transcription = processor.batch_decode(logits.numpy()).text
+# => 'bien y qué regalo vas a abrir primero'
 ```
 **Improvement**