from transformers import pipeline | |
import scipy | |
model_id = "tmp/vits_finetuned_guj" | |
synthesiser = pipeline("text-to-speech", model_id, device=0) # remove device=0 if you want to use cpu | |
texts = [ | |
"કોલકાતા રેપ-હત્યાની ઘટનાના વિરોધ વચ્ચે અમદાવાદમાં ડોક્ટર પર હુમલો:LG હોસ્પિટલમાં દર્દીના પરિવારજને ડોક્ટરનું ગળું દબાવ્યું, કહ્યું- તું મને ઓળખતો નથી, હું તને જોઈ લઈશ", | |
"કેદીઓને રાખડી બાંધતાં બહેનો ધ્રુસકે ધ્રુસકે રડી પડી:વડોદરા સેન્ટ્રલ જેલમાં બહેને કહ્યું-ભાઈને જેલમાં જોઈ ખૂબ દુઃખ થાય છે, અગ્નિકાંડના આરોપી સાગઠિયાએ મોં છુપાવ્યું", | |
"ડ્રેગનની દાદાગીરી નહીં ચાલે, ફિલિપાઈન્સે ચીનના જહાજને ટક્કર મારતા સુપરપાવર દેશો એલર્ટ" | |
] | |
for i, text in enumerate(texts): | |
speech = synthesiser(text) | |
scipy.io.wavfile.write(f"finetuned_output_{i}.wav", rate=speech["sampling_rate"], data=speech["audio"][0]) |