muzammil-eds
/

aralense-base-v4.5

Image-Text-to-Text

vision-encoder-decoder

Inference Endpoints

Model card Files Files and versions Community

aralense-base-v4.5 / tokenizer_config.json

muzammil-eds's picture

Upload tokenizer (#2)

562d697 over 1 year ago

785 Bytes

	{
	"clean_up_tokenization_spaces": true,
	"cls_token": "[CLS]",
	"do_basic_tokenize": true,
	"do_lower_case": false,
	"mask_token": "[MASK]",
	"max_len": 512,
	"model_max_length": 512,
	"never_split": [
	"+ك",
	"+كما",
	"ك+",
	"+وا",
	"+ين",
	"و+",
	"+كن",
	"+ان",
	"+هم",
	"+ة",
	"[بريد]",
	"لل+",
	"+ي",
	"+ت",
	"+ن",
	"س+",
	"ل+",
	"[مستخدم]",
	"+كم",
	"+ا",
	"ب+",
	"ف+",
	"+نا",
	"+ها",
	"+ون",
	"+هما",
	"ال+",
	"+ه",
	"+هن",
	"+ات",
	"[رابط]"
	],
	"pad_token": "[PAD]",
	"sep_token": "[SEP]",
	"strip_accents": null,
	"tokenize_chinese_chars": true,
	"tokenizer_class": "BertTokenizer",
	"unk_token": "[UNK]"
	}