HIT-TMG
/

dialogue-bart-large-chinese

Text2Text Generation

bart-large-chinese

Inference Endpoints

Model card Files Files and versions Community

dialogue-bart-large-chinese / README.md

YanshekWoo's picture

Update README.md

85e7694 about 2 years ago

|

1.53 kB

	---
	# dialogue-bart-large-chinese
	This is a seq2seq model fine-tuned on several Chinese dialogue datasets, from bart-large-chinese.


	# Datasets
	We utilize 4 Chinese dialogue datasets from [LUGE](https://www.luge.ai/#/)

	\| \| \| \|
	\| ---- \| ---- \| ---- \|
	\| \| Count \| Domain \|
	\| Chinese Persona Chat (CPC) \| 23,000 \| Open \|
	\| LCCC \| 11,987,759 \| Open \|
	\| Emotional STC (ESTC) \| 899,207 \| Open \|
	\| KdConv \| 3,000 \| Movie, Music, Travel \|
	\| \| \| \|


	# Example
	```python
	from transformers import BertTokenizer, BartForConditionalGeneration

	# Note that tokenizer is an object of BertTokenizer, instead of BartTokenizer
	tokenizer = BertTokenizer.from_pretrained("HIT-TMG/dialogue-bart-large-chinese")
	model = BartForConditionalGeneration.from_pretrained("HIT-TMG/dialogue-bart-large-chinese")

	# an example from CPC dev data
	dialogue_history = "可以认识一下吗？ [SEP] 当然可以啦，你好。 [SEP] 嘿嘿你好，请问你最近在忙什么呢？ [SEP] 我最近养了一只狗狗，我在训练它呢。"
	input_ids = tokenizer(dialogue_history, return_tensors='pt').input_ids
	output_ids = model.generate(input_ids)[0]
	print(tokenizer.decode(output_ids))
	```