wenge-research commited on
Commit
fc95cb0
1 Parent(s): 5a397cb

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +14 -21
README.md CHANGED
@@ -17,7 +17,8 @@ license: apache-2.0
17
 
18
 
19
  ## 介绍/Introduction
20
- 雅意信息抽取统一大模型 (YAYI-UIE)在百万级人工构造的高质量信息抽取数据上进行指令微调得到,统一训练信息抽取任务包括命名实体识别(NER),关系抽取(RE)和事件抽取(EE),实现通用、安全、金融、生物、医疗、商业、个人、车辆、电影、工业、餐厅、科学等场景下结构化抽取。
 
21
 
22
  通过雅意IE大模型的开源为促进中文预训练大模型开源社区的发展,贡献自己的一份力量,通过开源,与每一位合作伙伴共建雅意大模型生态。
23
 
@@ -51,15 +52,19 @@ print(tokenizer.decode(response[0],skip_special_tokens=True))
51
 
52
  #### 指令样例/Sample Prompts
53
 
54
- 1. 实体抽取任务
55
  ```
56
  文本:xx
57
  【实体抽取】抽取文本中可能存在的实体,并以json{人物/机构/地点:[实体]}格式输出。
 
 
58
  ```
59
- 2. 关系抽取任务
60
  ```
61
  文本:xx
62
  【关系抽取】已知关系列表是[注资,拥有,纠纷,自己,增持,重组,买资,签约,持股,交易]。根据关系列表抽取关系三元组,按照json[{'relation':'', 'head':'', 'tail':''}, ]的格式输出。
 
 
63
  ```
64
  ```
65
  文本:xx
@@ -69,20 +74,6 @@ print(tokenizer.decode(response[0],skip_special_tokens=True))
69
  ```
70
  文本:xx
71
  已知论元角色列表是[质押方,披露时间,质权方,质押物,质押股票/股份数量,事件时间,质押物所属公司,质押物占总股比,质押物占持股比],请根据论元角色列表从给定的输入中抽取可能的论元,以json{角色:论元,}格式输出。
72
- ```
73
-
74
- 1. NER
75
- ```
76
- Text:
77
- From the given text, extract all the entities and types. Please format the answer in json {person/organization/location:[entities]}.
78
- ```
79
- 2. RE
80
- ```
81
- Text:
82
- From the given text, extract the possible head entities (subjects) and tail entities (objects) and give the corresponding relation triples.The relations are [country of administrative divisions,place of birth,location contains]. Output the result in json[{'relation':'', 'head':'', 'tail':''}, ].
83
- ```
84
- 3. EE
85
- ```
86
  Text:
87
  Given the text and the role list [seller, place, beneficiary, buyer], identify event arguments and roles, provide your answer in the format of json{role:name}.
88
  ```
@@ -110,7 +101,7 @@ FewRe,Wiki-ZSL为英文数据集, SKE 2020,COAE2016,IPRE为中文数据
110
 
111
  FewRe and Wiki-ZSL are English datasets; SKE 2020, COAE2016 and IPRE are Chinese datasets
112
 
113
- | Model | FewRe | Wiki-ZSL | EN Average | SKE 2020 | COAE2016 | IPRE | ZH Average |
114
  | ------ | ------ | ------ | ------ | ------ | ------ | ------ | ------ |
115
  | ChatGPT 3.5 | 9.96 | 13.14 | 11.55 24.47 | 19.31 | 6.73 | 16.84 |
116
  | ZETT(T5-small) | 30.53 | 31.74 | 31.14 | - | - | - | - |
@@ -145,11 +136,9 @@ EEA(事件论元抽取 Event Arguments Extraction)
145
 
146
  The chart illustrates the performance of our model on Chinese IE tasks in zero-shot setting.
147
 
148
- <div align="center">
149
- <br>
150
 
151
  ![零样本推理性能分布](./assets/zh-0shot.png)
152
- </div>
153
  ## 相关协议/Terms and Conditions
154
  #### 局限性/Limitations
155
  基于当前数据和基础模型训练得到的SFT模型,在效果上仍存在以下问题:
@@ -165,6 +154,10 @@ The SFT model, trained using the data and the base model, still faces the follow
165
  2. It struggles to effectively discern harmful instructions, potentially resulting in hazardous statements.
166
  3. The model's extraction capability needs improvement in scenarios involving paragraph-level texts.
167
 
 
 
 
 
168
  #### 免责声明/Disclaimer
169
  基于以上模型局限性,我们要求开发者仅将我们开源的代码、数据、模���及后续用此项目生成的衍生物用于研究目的,不得用于商业用途,以及其他会对社会带来危害的用途。请谨慎鉴别和使用雅意大模型生成的内容,请勿将生成的有害内容传播至互联网。若产生不良后果,由传播者自负。
170
  本项目仅可应用于研究目的,项目开发者不承担任何因使用本项目(包含但不限于数据、模型、代码等)导致的危害或损失。详细请参考免责声明。
 
17
 
18
 
19
  ## 介绍/Introduction
20
+ 雅意信息抽取统一大模型 (YAYI-UIE)在百万级人工构造的高质量信息抽取数据上进行指令微调,统一训练信息抽取任务包括命名实体识别(NER),关系抽取(RE)和事件抽取(EE),实现通用、安全、金融、生物、医疗、商业、
21
+ 个人、车辆、电影、工业、餐厅、科学等场景下结构化抽取。
22
 
23
  通过雅意IE大模型的开源为促进中文预训练大模型开源社区的发展,贡献自己的一份力量,通过开源,与每一位合作伙伴共建雅意大模型生态。
24
 
 
52
 
53
  #### 指令样例/Sample Prompts
54
 
55
+ 1. 实体抽取任务/NER tasks
56
  ```
57
  文本:xx
58
  【实体抽取】抽取文本中可能存在的实体,并以json{人物/机构/地点:[实体]}格式输出。
59
+ Text:
60
+ From the given text, extract all the entities and types. Please format the answer in json {person/organization/location:[entities]}.
61
  ```
62
+ 2. 关系抽取任务/RE tasks
63
  ```
64
  文本:xx
65
  【关系抽取】已知关系列表是[注资,拥有,纠纷,自己,增持,重组,买资,签约,持股,交易]。根据关系列表抽取关系三元组,按照json[{'relation':'', 'head':'', 'tail':''}, ]的格式输出。
66
+ Text:
67
+ From the given text, extract the possible head entities (subjects) and tail entities (objects) and give the corresponding relation triples.The relations are [country of administrative divisions,place of birth,location contains]. Output the result in json[{'relation':'', 'head':'', 'tail':''}, ].
68
  ```
69
  ```
70
  文本:xx
 
74
  ```
75
  文本:xx
76
  已知论元角色列表是[质押方,披露时间,质权方,质押物,质押股票/股份数量,事件时间,质押物所属公司,质押物占总股比,质押物占持股比],请根据论元角色列表从给定的输入中抽取可能的论元,以json{角色:论元,}格式输出。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
77
  Text:
78
  Given the text and the role list [seller, place, beneficiary, buyer], identify event arguments and roles, provide your answer in the format of json{role:name}.
79
  ```
 
101
 
102
  FewRe and Wiki-ZSL are English datasets; SKE 2020, COAE2016 and IPRE are Chinese datasets
103
 
104
+ | Model | FewRel | Wiki-ZSL | EN Average | SKE 2020 | COAE2016 | IPRE | ZH Average |
105
  | ------ | ------ | ------ | ------ | ------ | ------ | ------ | ------ |
106
  | ChatGPT 3.5 | 9.96 | 13.14 | 11.55 24.47 | 19.31 | 6.73 | 16.84 |
107
  | ZETT(T5-small) | 30.53 | 31.74 | 31.14 | - | - | - | - |
 
136
 
137
  The chart illustrates the performance of our model on Chinese IE tasks in zero-shot setting.
138
 
 
 
139
 
140
  ![零样本推理性能分布](./assets/zh-0shot.png)
141
+
142
  ## 相关协议/Terms and Conditions
143
  #### 局限性/Limitations
144
  基于当前数据和基础模型训练得到的SFT模型,在效果上仍存在以下问题:
 
154
  2. It struggles to effectively discern harmful instructions, potentially resulting in hazardous statements.
155
  3. The model's extraction capability needs improvement in scenarios involving paragraph-level texts.
156
 
157
+ #### 开源协议/Open Source License
158
+ 本项目中的代码和数据依照 [Apache-2.0](LICENSE) 协议开源,社区使用YAYI UIE模型或其衍生品请遵循[Baichuan2](https://github.com/baichuan-inc/Baichuan2)的社区协议和商用协议。
159
+ The code and data in this project is open-sourced under the [Apache-2.0](LICENSE) license. The use of YAYI-UIE model or its derivatives must adhere to [Baichuan2](https://github.com/baichuan-inc/Baichuan2)'s community and commercial Model License.
160
+
161
  #### 免责声明/Disclaimer
162
  基于以上模型局限性,我们要求开发者仅将我们开源的代码、数据、模���及后续用此项目生成的衍生物用于研究目的,不得用于商业用途,以及其他会对社会带来危害的用途。请谨慎鉴别和使用雅意大模型生成的内容,请勿将生成的有害内容传播至互联网。若产生不良后果,由传播者自负。
163
  本项目仅可应用于研究目的,项目开发者不承担任何因使用本项目(包含但不限于数据、模型、代码等)导致的危害或损失。详细请参考免责声明。