hajili
/

zephyr-7b-beta-azerbaijani-dolly-instruct

Model card Files Files and versions Community

zephyr-7b-beta-azerbaijani-dolly-instruct / README.md

hajili's picture

Update README.md

ffe5983 12 months ago

|

history blame contribute delete

2.86 kB

	---
	library_name: peft
	base_model: HuggingFaceH4/zephyr-7b-beta
	datasets:
	- w95/databricks-dolly-15k-az
	license: mit
	language:
	- az
	---

	# Model Card for Model ID

	This model was built via parameter-efficient finetuning of the HuggingFaceH4/zephyr-7b-beta base model on the first 8k rows in w95/databricks-dolly-15k-az.

	## Model Details

	### Model Description

	<!-- Provide a longer summary of what this model is. -->

	- Developed by: Mammad Hajili
	- Model type: Causal LM
	- Language(s) (NLP): Azerbaijani
	- License: mit
	- Finetuned from model [optional]: HuggingFaceH4/zephyr-7b-beta

	## Training procedure

	The following `bitsandbytes` quantization config was used during training:
	- quant_method: bitsandbytes
	- load_in_8bit: False
	- load_in_4bit: True
	- llm_int8_threshold: 6.0
	- llm_int8_skip_modules: None
	- llm_int8_enable_fp32_cpu_offload: False
	- llm_int8_has_fp16_weight: False
	- bnb_4bit_quant_type: nf4
	- bnb_4bit_use_double_quant: False
	- bnb_4bit_compute_dtype: bfloat16

	### Framework versions

	- PEFT 0.6.3.dev0


	### Loading model and tokenizer

	```python
	from peft import PeftModel, PeftConfig
	from transformers import AutoModelForCausalLM

	config = PeftConfig.from_pretrained("hajili/zephyr-7b-beta-dolly-azerbaijani")
	model = AutoModelForCausalLM.from_pretrained("HuggingFaceH4/zephyr-7b-beta", device_map='auto', torch_dtype=torch.bfloat16)
	model = PeftModel.from_pretrained(model, "hajili/zephyr-7b-beta-dolly-azerbaijani")

	tokenizer = transformers.AutoTokenizer.from_pretrained(
	"hajili/zephyr-7b-beta-dolly-azerbaijani",
	)
	tokenizer.pad_token = tokenizer.eos_token
	tokenizer.padding_side = 'right'
	```

	### Text Comprehension:

	``` python
	system_message = "Bakı şəhərinin əhalisi neçə milyondur?"
	user_message = "Azərbaycanın paytaxtı Bakı şəhəridir. Onun əhalisi 3 milyondur. Bakı Xəzər dənizi sahilində yerləşir."

	prompt = f"<\|system\|>\n{system_message}\n<\|user\|>\n{user_message}\n<\|assistant\|>\n"
	inputs = tokenizer(prompt, return_tensors='pt', return_attention_mask=False)

	output_ids = model.generate(**inputs, max_length=200)

	answer = tokenizer.batch_decode(output_ids)[0]

	print(answer) #Bakı şəhərinin əhalisi 3 milyondur.
	```

	### Text Generation
	``` python
	system_message = "Təbiət haqqında şeir yaz."
	user_message = ""

	prompt = f"<\|system\|>\n{system_message}\n<\|user\|>\n{user_message}\n<\|assistant\|>\n"
	inputs = tokenizer(prompt, return_tensors='pt', return_attention_mask=False)

	output_ids = model.generate(**inputs, max_length=200)

	answer = tokenizer.batch_decode(output_ids)[0]

	print(answer)

	#Günəşin yanında, göy qurşağının rəngləri,
	#Yeni bir günün doğulması,
	#Həyat başlayır,
	#Bir yeni səyahətə başlayın.
	#
	#Günəşin yanında, göy qurşağının rəngləri,
	#Rənglər dəyiş,
	#Həyat dəyişir,
	#Və məni tərk edir.
	```