flax-community
/

gpt2-medium-persian

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

gpt2-medium-persian / README.md

m3hrdadfi's picture

Update readme

6040dc3 over 3 years ago

|

715 Bytes

	# GPT2 - Persian


	## Scripts

	### Normalizer

	```python
	from src.normalizer import normalize

	input_text = "ὑ蕉Ұ제ṅ尘̲改座◦花芝秀黄天자埃澤ಿ ˈazbab اینجا ایران خانه‌شما است؟!۱۲۳۱۲۳۱۳۱۲ اَلْحُرُوفُ ٱلْعَرَبِیَّة"
	print(normalize(input_text))
	```

	Output:
	```text
	azbab اینجا ایران خانه‌شما است ؟ ! 1231231312 الحروف لعربیه
	```

	### Training tokenizer

	```bash
	python train_tokenizer.py --dataset_name oscar --dataset_config_name unshuffled_deduplicated_als --vocab_size 42000
	```

	### Configuration

	```bash
	python create_config.py --name_or_path gpt2-medium --params '{"vocab_size": 42000}'
	```