HIT-TMG
/

dialogue-bart-large-chinese

Text2Text Generation

bart-large-chinese

Inference Endpoints

Model card Files Files and versions Community

dialogue-bart-large-chinese / README.md

YanshekWoo's picture

Update README.md

e000310 about 2 years ago

|

1.58 kB

	---
	# dialogue-bart-large-chinese
	This is a seq2seq model fine-tuned on several Chinese dialogue datasets, from bart-large-chinese.


	# Datasets
	We utilize 4 Chinese dialogue datasets from [LUGE](https://www.luge.ai/#/)

	\| \| \| \|
	\| ---- \| ---- \| ---- \|
	\| \| Count \| Domain \|
	\| Chinese Persona Chat (CPC) \| 23,000 \| Open \|
	\| LCCC \| 11,987,759 \| Open \|
	\| Emotional STC (ESTC) \| 899,207 \| Open \|
	\| KdConv \| 3,000 \| Movie, Music, Travel \|
	\| \| \| \|


	# Example
	```python
	from transformers import BertTokenizer, BartForConditionalGeneration

	# Note that tokenizer is an object of BertTokenizer, instead of BartTokenizer
	tokenizer = BertTokenizer.from_pretrained("HIT-TMG/dialogue-bart-large-chinese")
	model = BartForConditionalGeneration.from_pretrained("HIT-TMG/dialogue-bart-large-chinese")

	# an example from CPC dev data
	history = ["可以认识一下吗？", "当然可以啦，你好。", "嘿嘿你好，请问你最近在忙什么呢？", "我最近养了一只狗狗，我在训练它呢。"]
	history_str = "历史：" + tokenizer.sep_token.join(history)
	input_ids = tokenizer(history_str, return_tensors='pt').input_ids
	output_ids = model.generate(input_ids)[0]
	print(tokenizer.decode(output_ids))
	```