HIT-TMG
/

dialogue-bart-large-chinese

Text2Text Generation

bart-large-chinese

Inference Endpoints

Model card Files Files and versions Community

dialogue-bart-large-chinese / README.md

YanshekWoo's picture

Update README.md

f480fc2 about 2 years ago

|

1.88 kB

	---
	language:
	- zh
	thumbnail: "url to a thumbnail used in social sharing"
	tags:
	- bart-large-chinese
	datasets:
	- Chinese Persona Chat (CPC)
	- LCCC
	- Emotional STC (ESTC)
	- KdConv
	---

	# dialogue-bart-large-chinese
	This is a seq2seq model fine-tuned on several Chinese dialogue datasets, from bart-large-chinese.


	# Datasets
	We utilize 4 Chinese dialogue datasets from [LUGE](https://www.luge.ai/#/)

	\| \| \| \|
	\| ---- \| ---- \| ---- \|
	\| \| Count \| Domain \|
	\| Chinese Persona Chat (CPC) \| 23,000 \| Open \|
	\| LCCC \| 11,987,759 \| Open \|
	\| Emotional STC (ESTC) \| 899,207 \| Open \|
	\| KdConv \| 3,000 \| Movie, Music, Travel \|
	\| \| \| \|


	# Data format
	Input: `[CLS] 对话历史：<history> 知识：<knowledge> [SEP]`

	Output: `[CLS] <response> [SEP]`


	# Example
	```python
	from transformers import BertTokenizer, BartForConditionalGeneration

	# Note that tokenizer is an object of BertTokenizer, instead of BartTokenizer
	tokenizer = BertTokenizer.from_pretrained("HIT-TMG/dialogue-bart-large-chinese")
	model = BartForConditionalGeneration.from_pretrained("HIT-TMG/dialogue-bart-large-chinese")

	# an example from CPC dev data
	history = ["可以认识一下吗？", "当然可以啦，你好。", "嘿嘿你好，请问你最近在忙什么呢？", "我最近养了一只狗狗，我在训练它呢。"]
	history_str = "对话历史：" + tokenizer.sep_token.join(history)
	input_ids = tokenizer(history_str, return_tensors='pt').input_ids
	output_ids = model.generate(input_ids)[0]
	print(tokenizer.decode(output_ids))
	```