Text-to-Speech
Transformers
Safetensors
Arabic
vits
text-to-audio
Inference Endpoints
File size: 10,949 Bytes
6c2374d
43cc3d0
 
 
15a2a17
 
96d739d
15a2a17
6c2374d
 
 
 
 
 
 
 
 
 
74bb657
6c2374d
74bb657
 
6c2374d
74bb657
 
6c2374d
74bb657
6c2374d
74bb657
6c2374d
74bb657
 
6c2374d
74bb657
 
 
6c2374d
74bb657
6c2374d
74bb657
 
 
6c2374d
74bb657
 
6c2374d
74bb657
 
6c2374d
74bb657
 
 
6c2374d
74bb657
6c2374d
74bb657
6c2374d
74bb657
6c2374d
74bb657
 
6c2374d
 
 
74bb657
6c2374d
74bb657
6c2374d
74bb657
6c2374d
74bb657
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6c2374d
74bb657
6c2374d
74bb657
6c2374d
74bb657
6c2374d
74bb657
6c2374d
 
 
74bb657
6c2374d
 
 
74bb657
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
---
datasets:
- mozilla-foundation/common_voice_17_0
- wasmdashai/db-arabic-f1-nn
language:
- ar
license: afl-3.0
pipeline_tag: text-to-speech
---
# Model Card for Model ID


## Model Details

### Model Description

<!-- Provide a longer summary of what this model is. -->

An advanced text-to-speech (TTS) system specifically designed for the Arabic language, built on the VITS architecture and utilizing the pre-trained weights from Facebook's vits ara model. The model is capable of:

Generating natural and realistic speech: Producing high-quality Arabic speech that closely mimics human voices, preserving intonation and linguistic nuances.
Understanding colloquial text: Processing text written in various Arabic dialects, including idiomatic expressions and local vocabulary.

Model Details
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is an end-to-end speech synthesis model that predicts a speech waveform conditional on an input text sequence. It is a conditional variational autoencoder (VAE) comprised of a posterior encoder, decoder, and conditional prior.

A set of spectrogram-based acoustic features are predicted by the flow-based module, which is formed of a Transformer-based text encoder and multiple coupling layers. The spectrogram is decoded using a stack of transposed convolutional layers, much in the same style as the HiFi-GAN vocoder. Motivated by the one-to-many nature of the TTS problem, where the same text input can be spoken in multiple ways, the model also includes a stochastic duration predictor, which allows the model to synthesise speech with different rhythms from the same input text.

## Usage

MMS-TTS is available in the 🤗 Transformers library from version 4.33 onwards. To use this checkpoint, 
first install the latest version of the library:

```
pip install  transformers[torch]
```

Then, run inference with the following code-snippet:

```python
from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("wasmdashai/vits-ar")
tokenizer = AutoTokenizer.from_pretrained("wasmdashai/vits-ar")

text = "السلام عليكم ورحمة الله وبركاتة  ما الجديد ؟ "
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
  full_generation =model(**inputs)
full_generation_waveform = full_generation.waveform.cpu().numpy().reshape(-1)

from IPython.display import Audio

Audio(full_generation_waveform, rate=model.config.sampling_rate)

```

## Contact
You can also email us at [email protected]



## مجموعة نماذج توليد اللهجات العربية

### مقدمة

يسرنا أن نعلن عن إصدار مجموعة من نماذج توليد اللهجات العربية قريبًا. تم تصميم هذه النماذج باستخدام تقنيات الذكاء الاصطناعي المتقدمة لتقديم تجربة طبيعية وواقعية في تحويل النص إلى كلام (Text-to-Speech) بمختلف اللهجات العربية.

### جدول النماذج
| **اللهجة**        | **اسم النموذج**                                                                  | **الوصف**                                                                 | **تاريخ الإصدار المتوقع** | **مستوى جودة الصوت** |
|-------------------|---------------------------------------------------------------------------------|---------------------------------------------------------------------------|----------------------------|----------------------|
|  اللغة العربية       | [vits-ar](https://huggingface.co/wasmdashai/vits-ar)                      | نموذج لتحويل النص إلى كلام باللهجة اليمنية بتفاصيل دقيقة.                  | متوفر                     | متوسط                |
| اللهجة اليمنية      | [vits-ar-ye](https://huggingface.co/wasmdashai/vits-ar-ye)                      | نموذج لتحويل النص إلى كلام باللهجة اليمنية بتفاصيل دقيقة.                  | قريباً                     | متوسط                |
| اللهجة السعودية    | [vits-ar-sa](https://huggingface.co/wasmdashai/vits-ar-sa-huba)                      | نموذج لتحويل النص إلى كلام باللهجة السعودية بجودة عالية وتفاصيل دقيقة.     | متوفر                     | متوسط                |
| اللهجة المصرية     | [vits-ar-eg](https://huggingface.co/wasmdashai/vits-ar-eg)                      | نموذج لتحويل النص إلى كلام باللهجة المصرية بأسلوب طبيعي وسلس.              | قريباً                     | متوسط                |
| اللهجة اللبنانية   | [vits-ar-lb](https://huggingface.co/wasmdashai/vits-ar-lb)                      | نموذج متخصص في اللهجة اللبنانية لتوليد كلام بتفاصيل دقيقة وواقعية.         | قريباً                     | متوسط                |
| اللهجة المغربية    | [vits-ar-ma](https://huggingface.co/wasmdashai/vits-ar-ma)                      | نموذج لتحويل النص إلى كلام باللهجة المغربية بقدرة على فهم المصطلحات المحلية.| قريباً                     | متوسط                |
| اللهجة الإماراتية  | [vits-ar-ae](https://huggingface.co/wasmdashai/vits-ar-ae)                      | نموذج لتحويل النص إلى كلام باللهجة الإماراتية بواقعية وتفاصيل دقيقة.        | قريباً                     | متوسط                |
| اللهجة الأردنية     | [vits-ar-jo](https://huggingface.co/wasmdashai/vits-ar-jo)                      | نموذج لتحويل النص إلى كلام باللهجة الأردنية بإتقان للتفاصيل الصوتية.        | قريباً                     | متوسط                |
| اللهجة العراقية     | [vits-ar-iq](https://huggingface.co/wasmdashai/vits-ar-iq)                      | نموذج لتوليد الكلام باللهجة العراقية بدقة في نطق الكلمات والتعابير الشائعة.  | قريباً                     | متوسط                |
| اللهجة السورية      | [vits-ar-sy](https://huggingface.co/wasmdashai/vits-ar-sy)                      | نموذج لتحويل النص إلى كلام باللهجة السورية بوضوح وصوت طبيعي.               | قريباً                     | متوسط                |
| اللهجة الفلسطينية  | [vits-ar-ps](https://huggingface.co/wasmdashai/vits-ar-ps)                      | نموذج لتحويل النص إلى كلام باللهجة الفلسطينية بتفاصيل دقيقة.               | قريباً                     | متوسط                |
| اللهجة السودانية    | [vits-ar-sd](https://huggingface.co/wasmdashai/vits-ar-sd)                      | نموذج لتحويل النص إلى كلام باللهجة السودانية مع فهم المفردات المحلية.       | قريباً                     | متوسط                |
| اللهجة الجزائرية    | [vits-ar-dz](https://huggingface.co/wasmdashai/vits-ar-dz)                      | نموذج لتحويل النص إلى كلام باللهجة الجزائرية بدقة وجودة عالية.              | قريباً                     | متوسط                |
| اللهجة التونسية     | [vits-ar-tn](https://huggingface.co/wasmdashai/vits-ar-tn)                      | نموذج لتحويل النص إلى كلام باللهجة التونسية بإتقان للتفاصيل المحلية.         | قريباً                     | متوسط                |
| اللهجة الليبية      | [vits-ar-ly](https://huggingface.co/wasmdashai/vits-ar-ly)                      | نموذج لتحويل النص إلى كلام باللهجة الليبية بدقة وواقعية في النطق.           | قريباً                     | متوسط                |
| اللهجة البحرينية    | [vits-ar-bh](https://huggingface.co/wasmdashai/vits-ar-bh)                      | نموذج لتحويل النص إلى كلام باللهجة البحرينية بجودة صوت عالية.               | قريباً                     | متوسط                |
| اللهجة العمانية     | [vits-ar-om](https://huggingface.co/wasmdashai/vits-ar-om)                      | نموذج لتحويل النص إلى كلام باللهجة العمانية بدقة ووضوح في النطق.             | قريباً                     | متوسط                |
| اللهجة القطرية      | [vits-ar-qa](https://huggingface.co/wasmdashai/vits-ar-qa)                      | نموذج لتحويل النص إلى كلام باللهجة القطرية بتفاصيل دقيقة وواقعية.           | قريباً                     | متوسط                |
| اللهجة الكويتية     | [vits-ar-kw](https://huggingface.co/wasmdashai/vits-ar-kw)                      | نموذج لتحويل النص إلى كلام باللهجة الكويتية بجودة عالية ووضوح.              | قريباً                     | متوسط                |
| اللهجة الموريتانية  | [vits-ar-mr](https://huggingface.co/wasmdashai/vits-ar-mr)                      | نموذج لتحويل النص إلى كلام باللهجة الموريتانية بتفاصيل دقيقة وواقعية.       | قريباً                     | متوسط                |

### التفاصيل الفنية

تعتمد جميع النماذج على بنية VITS، وهي نموذج شامل لتحويل النص إلى كلام يتيح توليد موجات صوتية واقعية بناءً على المدخلات النصية. تحتوي النماذج على محولات لتحليل النص وتوليد الكلام بناءً على خصائص الصوت المحلية لكل لهجة.

### الترقيات المستقبلية

سيتم تقديم تحديثات منتظمة لتحسين جودة الصوت وزيادة كفاءة فهم اللهجات المختلفة. تابعونا لمعرفة المزيد حول تواريخ الإطلاق الدقيقة لكل نموذج.



## Acknowledgements



This implementation is based on [tts-arabic](https://github.com/nipponjo/tts-arabic-pytorch), [VITS](https://github.com/jaywalnut310/vits), [Finetune VITS](https://github.com/ylacombe/finetune-hf-vits) and [Bert-VITS2](https://github.com/fishaudio/Bert-VITS2). We appreciate their awesome work.