beyond commited on
Commit
5dfaf44
1 Parent(s): 65af2a9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +32 -32
README.md CHANGED
@@ -1,12 +1,16 @@
1
  ---
2
- language: zh
 
 
3
  tags:
4
- - SEGA
 
 
5
  - data augmentation
6
- - keywords-to-text generation
7
- - sketch-to-text generation
8
  license: apache-2.0
9
  datasets:
 
10
  - beyond/chinese_clean_passages_80m
11
 
12
 
@@ -24,20 +28,16 @@ inference:
24
  num_beams: 3
25
  do_sample: True
26
  ---
27
- # "SEGA-base-chinese" model
28
 
29
- **SEGA: SkEtch-based Generative Augmentation** \
30
- **基于草稿的生成式增强模型**
31
 
32
- **SEGA** is a **general text augmentation model** that can be used for data augmentation for **various NLP tasks** (including sentiment analysis, topic classification, NER, and QA). SEGA uses an encoder-decoder structure (based on the BART architecture) and is pre-trained on a large-scale general corpus.
33
 
 
 
34
 
35
- ![sega-illustration](https://cdn.jsdelivr.net/gh/beyondguo/mdnice_pictures/typora/sega-main-illustration.png)
36
 
37
- - Paper: [SEGA: SkEtch-based Generative Augmentation (preprint)](https://github.com/beyondguo/SEGA/blob/master/SEGA_gby_preprint.pdf)
38
- - GitHub: [SEGA](https://github.com/beyondguo/SEGA).
39
 
40
- **SEGA中文版** 可以根据你给出的一个**草稿**进行填词造句扩写,草稿可以是:
41
  - 关键词组合,例如“今天[MASK]篮球[MASK]学校[MASK]”
42
  - 短语组合,例如“自然语言处理[MASK]谷歌[MASK]通用人工智能[MASK]”
43
  - 短句子组合,例如“我昨天做了一个梦[MASK]又遇见了她[MASK]曾经那段时光让人怀恋[MASK]”
@@ -45,13 +45,13 @@ inference:
45
 
46
  ### How to use / 如何使用
47
  ```python
48
- # sega-chinese
49
  from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
50
- checkpoint = 'beyond/sega-base-chinese'
51
  tokenizer = BertTokenizer.from_pretrained(checkpoint)
52
- sega_model = BartForConditionalGeneration.from_pretrained(checkpoint)
53
- sega_generator = Text2TextGenerationPipeline(sega_model, tokenizer, device=0)
54
- sega_generator
55
 
56
  sketchs = [
57
  "今天[MASK]篮球[MASK]学校[MASK]",
@@ -63,59 +63,59 @@ sketchs = [
63
  ]
64
  for sketch in sketchs:
65
  print('input sketch:\n>>> ', sketch)
66
- print('SEGA-chinese output:\n>>> ',sega_generator(sketch, max_length=100, do_sample=True, num_beams=3)[0]['generated_text'].replace(' ',''),'\n')
67
  ```
68
 
69
- ## Model variations / SEGA其他版本
70
 
71
  | Model | #params | Language | comment|
72
  |------------------------|--------------------------------|-------|---------|
73
- | [`sega-large`](https://huggingface.co/beyond/sega-large) | 406M | English | The version used in paper |
74
- | [`sega-large-k2t`](https://huggingface.co/beyond/sega-large-k2t) | 406M | English | keywords-to-text |
75
- | [`sega-base`](https://huggingface.co/beyond/sega-base) | 139M | English | smaller version |
76
- | [`sega-base-ps`](https://huggingface.co/beyond/sega-base) | 139M | English | pre-trained both in paragraphs and short sentences |
77
- | [`sega-base-chinese`](https://huggingface.co/beyond/sega-base-chinese) | 116M | 中文 | 在一千万纯净中文段落上预训练|
78
 
79
 
80
  ## Comparison / 效果对比
81
- The following comes the comparison between [BART-base-chinese](https://huggingface.co/fnlp/bart-base-chinese) and our proposed [SEGA-base-chinese](https://huggingface.co/beyond/sega-base-chinese).\
82
- 下面对比了[BART-base-chinese](https://huggingface.co/fnlp/bart-base-chinese)和我们提出的**SEGA-base-chinese**在填词造句方面的表现:
83
 
84
  ```
85
  input sketch:
86
  >>> 今天[MASK]篮球[MASK]上海财经大学[MASK]
87
  BART-chinese output:
88
  >>> 今天的篮球是上海财经大学篮球
89
- SEGA-chinese output:
90
  >>> 今天,我们邀请到了中国篮球联盟主席、上海财经大学校长孙建国先生作为主题发言。
91
 
92
  input sketch:
93
  >>> 自然语言处理[MASK]谷歌[MASK]通用人工智能[MASK]
94
  BART-chinese output:
95
  >>> 自然语言处理是谷歌的通用人工智能技术
96
- SEGA-chinese output:
97
  >>> 自然语言处理是谷歌在通用人工智能领域的一个重要研究方向,其目的是为了促进人类智能的发展。
98
 
99
  input sketch:
100
  >>> 我昨天做了一个梦[MASK]又遇见了她[MASK]曾经那段时光让人怀恋[MASK]
101
  BART-chinese output:
102
  >>> 我昨天做了一个梦今天又遇见了她我曾经那段时光让人怀恋不已
103
- SEGA-chinese output:
104
  >>> 我昨天做了一个梦,梦见了我的妈妈,又遇见了她,我知道她曾经那段时光让人怀恋,但是现在,我不知道该怎么回事了,我只是想告诉她,不要再回去了。
105
 
106
  input sketch:
107
  >>> [MASK]疫情[MASK]公园[MASK]漫步[MASK]
108
  BART-chinese output:
109
  >>> 在疫情防控公园内漫步徜徉
110
- SEGA-chinese output:
111
  >>> 为了防止疫情扩散,公园内还设置了漫步区。
112
 
113
  input sketch:
114
  >>> [MASK]酸菜鱼火锅[MASK]很美味,味道绝了[MASK]周末真开心[MASK]
115
  BART-chinese output:
116
  >>> 这酸菜鱼火锅真的很美味,味道绝了这周末真开心啊
117
- SEGA-chinese output:
118
  >>> 这个酸菜鱼火锅真的很美味,味道绝了,吃的时间也长了,周末真开心,吃完以后就回家了,很满意的一次,很喜欢的一个品牌。
119
  ```
120
 
121
- 可以看出,BART只能填补简单的一些词,无法对这些片段进行很连贯的连接,而SEGA则可以扩写成连贯的句子甚至段落。
 
1
  ---
2
+ language:
3
+ - en
4
+ - zh
5
  tags:
6
+ - GENIUS
7
+ - conditional text generation
8
+ - sketch-based text generation
9
  - data augmentation
10
+
 
11
  license: apache-2.0
12
  datasets:
13
+ - c4
14
  - beyond/chinese_clean_passages_80m
15
 
16
 
 
28
  num_beams: 3
29
  do_sample: True
30
  ---
 
31
 
32
+ # GENIUS: generating text using sketches!
 
33
 
 
34
 
35
+ - **Paper: [GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation](https://arxiv.org/abs/2211.10330)**
36
+ - **GitHub: [GENIUS, Pre-training/Data Augmentation Tutorial](https://github.com/beyondguo/genius)**
37
 
 
38
 
 
 
39
 
40
+ **GENIUS中文版** 可以根据你给出的一个**草稿**进行填词造句扩写,草稿可以是:
41
  - 关键词组合,例如“今天[MASK]篮球[MASK]学校[MASK]”
42
  - 短语组合,例如“自然语言处理[MASK]谷歌[MASK]通用人工智能[MASK]”
43
  - 短句子组合,例如“我昨天做了一个梦[MASK]又遇见了她[MASK]曾经那段时光让人怀恋[MASK]”
 
45
 
46
  ### How to use / 如何使用
47
  ```python
48
+ # genius-chinese
49
  from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
50
+ checkpoint = 'beyond/genius-base-chinese'
51
  tokenizer = BertTokenizer.from_pretrained(checkpoint)
52
+ genius_model = BartForConditionalGeneration.from_pretrained(checkpoint)
53
+ genius_generator = Text2TextGenerationPipeline(genius_model, tokenizer, device=0)
54
+ genius_generator
55
 
56
  sketchs = [
57
  "今天[MASK]篮球[MASK]学校[MASK]",
 
63
  ]
64
  for sketch in sketchs:
65
  print('input sketch:\n>>> ', sketch)
66
+ print('genius-chinese output:\n>>> ',genius_generator(sketch, max_length=100, do_sample=True, num_beams=3)[0]['generated_text'].replace(' ',''),'\n')
67
  ```
68
 
69
+ ## Model variations / GENIUS其他版本
70
 
71
  | Model | #params | Language | comment|
72
  |------------------------|--------------------------------|-------|---------|
73
+ | [`genius-large`](https://huggingface.co/beyond/genius-large) | 406M | English | The version used in paper |
74
+ | [`genius-large-k2t`](https://huggingface.co/beyond/genius-large-k2t) | 406M | English | keywords-to-text |
75
+ | [`genius-base`](https://huggingface.co/beyond/genius-base) | 139M | English | smaller version |
76
+ | [`genius-base-ps`](https://huggingface.co/beyond/genius-base) | 139M | English | pre-trained both in paragraphs and short sentences |
77
+ | [`genius-base-chinese`](https://huggingface.co/beyond/genius-base-chinese) | 116M | 中文 | 在一千万纯净中文段落上预训练|
78
 
79
 
80
  ## Comparison / 效果对比
81
+ The following comes the comparison between [BART-base-chinese](https://huggingface.co/fnlp/bart-base-chinese) and our proposed [GENIUS-base-chinese](https://huggingface.co/beyond/genius-base-chinese).\
82
+ 下面对比了[BART-base-chinese](https://huggingface.co/fnlp/bart-base-chinese)和我们提出的**GENIUS-base-chinese**在填词造句方面的表现:
83
 
84
  ```
85
  input sketch:
86
  >>> 今天[MASK]篮球[MASK]上海财经大学[MASK]
87
  BART-chinese output:
88
  >>> 今天的篮球是上海财经大学篮球
89
+ GENIUS-chinese output:
90
  >>> 今天,我们邀请到了中国篮球联盟主席、上海财经大学校长孙建国先生作为主题发言。
91
 
92
  input sketch:
93
  >>> 自然语言处理[MASK]谷歌[MASK]通用人工智能[MASK]
94
  BART-chinese output:
95
  >>> 自然语言处理是谷歌的通用人工智能技术
96
+ GENIUS-chinese output:
97
  >>> 自然语言处理是谷歌在通用人工智能领域的一个重要研究方向,其目的是为了促进人类智能的发展。
98
 
99
  input sketch:
100
  >>> 我昨天做了一个梦[MASK]又遇见了她[MASK]曾经那段时光让人怀恋[MASK]
101
  BART-chinese output:
102
  >>> 我昨天做了一个梦今天又遇见了她我曾经那段时光让人怀恋不已
103
+ GENIUS-chinese output:
104
  >>> 我昨天做了一个梦,梦见了我的妈妈,又遇见了她,我知道她曾经那段时光让人怀恋,但是现在,我不知道该怎么回事了,我只是想告诉她,不要再回去了。
105
 
106
  input sketch:
107
  >>> [MASK]疫情[MASK]公园[MASK]漫步[MASK]
108
  BART-chinese output:
109
  >>> 在疫情防控公园内漫步徜徉
110
+ GENIUS-chinese output:
111
  >>> 为了防止疫情扩散,公园内还设置了漫步区。
112
 
113
  input sketch:
114
  >>> [MASK]酸菜鱼火锅[MASK]很美味,味道绝了[MASK]周末真开心[MASK]
115
  BART-chinese output:
116
  >>> 这酸菜鱼火锅真的很美味,味道绝了这周末真开心啊
117
+ GENIUS-chinese output:
118
  >>> 这个酸菜鱼火锅真的很美味,味道绝了,吃的时间也长了,周末真开心,吃完以后就回家了,很满意的一次,很喜欢的一个品牌。
119
  ```
120
 
121
+ 可以看出,BART只能填补简单的一些词,无法对这些片段进行很连贯的连接,而GENIUS则可以扩写成连贯的句子甚至段落。