comet24082002 commited on
Commit
efd69cf
1 Parent(s): 0fe711e

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,947 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: []
3
+ library_name: sentence-transformers
4
+ tags:
5
+ - sentence-transformers
6
+ - sentence-similarity
7
+ - feature-extraction
8
+ - generated_from_trainer
9
+ - dataset_size:10524
10
+ - loss:MultipleNegativesRankingLoss
11
+ base_model: comet24082002/finetune_bge_simsce_V1
12
+ datasets: []
13
+ widget:
14
+ - source_sentence: Án phí trong vụ án ly hôn khi đương sự không thỏa thuận được về
15
+ việc giải quyết vụ án được pháp luật quy định như thế nào?
16
+ sentences:
17
+ - 'Nghĩa vụ chịu án phí dân sự sơ thẩm trong một số loại việc cụ thể
18
+
19
+ ...
20
+
21
+ 5. Đối với vụ án hôn nhân và gia đình thì nghĩa vụ chịu án phí dân sự sơ thẩm
22
+ được xác định như sau:
23
+
24
+ a) Nguyên đơn phải chịu án phí dân sự sơ thẩm trong vụ án ly hôn không phụ thuộc
25
+ vào việc Tòa án chấp nhận hay không chấp nhận yêu cầu của nguyên đơn. Trường hợp
26
+ thuận tình ly hôn thì mỗi bên đương sự phải chịu 50% mức án phí;
27
+
28
+ ...'
29
+ - "Cấp giấy phép sử dụng tần số và thiết bị vô tuyến điện đối với thiết bị phát\
30
+ \ thanh, truyền hình\nTrình tự thực hiện: \n- Tổ chức hoàn thiện hồ sơ đề nghị\
31
+ \ cấp giấy phép sử dụng tần số và thiết bị vô tuyến điện đối với thiết bị phát\
32
+ \ thanh, truyền hình theo quy định tại Khoản 1 Điều 13 Thông tư 04/2021/TT-BTTTT\
33
+ \ và nộp hồ sơ đến Cục Tần số vô tuyến điện.\n- Sau khi hồ sơ được tiếp nhận,\
34
+ \ Cục Tần số vô tuyến điện cấp giấy phép sử dụng tần số và thiết bị vô tuyến điện\
35
+ \ đối với thiết bị phát thanh, truyền hình trong thời hạn 20 ngày làm việc kể\
36
+ \ từ ngày nhận được hồ sơ đầy đủ, đúng quy định.\n- Trường hợp hồ sơ chưa đầy\
37
+ \ đủ, chưa đúng quy định thì trong thời hạn 05 ngày làm việc kể từ ngày nhận được\
38
+ \ hồ sơ, Cục Tần số vô tuyến điện có trách nhiệm thông báo, hướng dẫn cho tổ chức\
39
+ \ để bổ sung, hoàn thiện hồ sơ.\n- Trường hợp từ chối cấp giấy phép, Cục Tần số\
40
+ \ vô tuyến điện thông báo bằng văn bản và nêu rõ lý do.\nCách thức thực hiện:\
41
+ \ Thực hiện thông qua một trong các phương thức sau:\n- Nộp trực tiếp tại Cục\
42
+ \ Tần số vô tuyến điện;\n- Nộp qua hệ thống bưu chính;\n(Địa chỉ Cục Tần số\
43
+ \ vô tuyến điện: Số 115 đường Trần Duy Hưng, phường Trung Hòa, quận Cầu Giấy,\
44
+ \ thành phố Hà Nội).\n- Nộp trực tuyến qua Cổng dịch vụ công: Cổng dịch vụ công\
45
+ \ của Bộ Thông tin và Truyền thông (http://dichvucong.mic.gov.vn) hoặc Cổng dịch\
46
+ \ vụ công của Cục Tần số vô tuyến điện (http://dichvucong.rfd.gov.vn).\nThành\
47
+ \ phần, số lượng hồ sơ:\n1. Thành phần hồ sơ: \n- Bản khai thông tin chung và\
48
+ \ Bản khai thông số kỹ thuật, khai thác theo mẫu 1d quy định tại Phụ lục II của\
49
+ \ Thông tư số 04/2021/TT-BTTTT.\n2. Số lượng hồ sơ: 01 bộ.\n..."
50
+ - '“1. Trung thành với Tổ quốc, Nhân dân và Hiến pháp, phấn đấu thực hiện công cuộc
51
+ đổi mới, vì mục tiêu dân giàu, nước mạnh, dân chủ, công bằng, văn minh.
52
+
53
+ “1a. Có một quốc tịch là quốc tịch Việt Nam.” Điều này được bổ sung bởi Khoản
54
+ 1 Điều 1 Luật Tổ chức Quốc hội sửa đổi 2020 có hiệu lực từ ngày 01/01/2021.”
55
+
56
+ 2. Có phẩm chất đạo đức tốt, cần, kiệm, liêm, chính, chí công vô tư, gương mẫu
57
+ chấp hành pháp luật; có bản lĩnh, kiên quyết đấu tranh chống tham nhũng, lãng
58
+ phí, mọi biểu hiện quan liêu, hách dịch, cửa quyền và các hành vi vi phạm pháp
59
+ luật khác.
60
+
61
+ 3. Có trình độ văn hóa, chuyên môn, có đủ năng lực, sức khỏe, kinh nghiệm công
62
+ tác và uy tín để thực hiện nhiệm vụ đại biểu Quốc hội.
63
+
64
+ 4. Liên hệ chặt chẽ với Nhân dân, lắng nghe ý kiến của Nhân dân, được Nhân dân
65
+ tín nhiệm.
66
+
67
+ 5. Có điều kiện tham gia các hoạt động của Quốc hội.”'
68
+ - source_sentence: Nơi tập sự hành nghề đấu giá có được thay đổi không? Nếu được sẽ
69
+ thay đổi trong trường hợp nào?
70
+ sentences:
71
+ - '"Điều 95. Điều kiện mang thai hộ vì mục đích nhân đạo
72
+
73
+ 1. Việc mang thai hộ vì mục đích nhân đạo phải được thực hiện trên cơ sở tự nguyện
74
+ của các bên và được lập thành văn bản.
75
+
76
+ 2. Vợ chồng có quyền nhờ người mang thai hộ khi có đủ các ��iều kiện sau đây:
77
+
78
+ a) Có xác nhận của tổ chức y tế có thẩm quyền về việc người vợ không thể mang
79
+ thai và sinh con ngay cả khi áp dụng kỹ thuật hỗ trợ sinh sản;
80
+
81
+ b) Vợ chồng đang không có con chung;
82
+
83
+ c) Đã được tư vấn về y tế, pháp lý, tâm lý.
84
+
85
+ 3. Người được nhờ mang thai hộ phải có đủ các điều kiện sau đây:
86
+
87
+ a) Là người thân thích cùng hàng của bên vợ hoặc bên chồng nhờ mang thai hộ;
88
+
89
+ b) Đã từng sinh con và chỉ được mang thai hộ một lần;
90
+
91
+ c) Ở độ tuổi phù hợp và có xác nhận của tổ chức y tế có thẩm quyền về khả năng
92
+ mang thai hộ;
93
+
94
+ d) Trường hợp người phụ nữ mang thai hộ có chồng thì phải có sự đồng ý bằng văn
95
+ bản của người chồng;
96
+
97
+ đ) Đã được tư vấn về y tế, pháp lý, tâm lý.
98
+
99
+ 4. Việc mang thai hộ vì mục đích nhân đạo không được trái với quy định của pháp
100
+ luật về sinh con bằng kỹ thuật hỗ trợ sinh sản.
101
+
102
+ 5. Chính phủ quy định chi tiết Điều này."'
103
+ - '"Điều 20. Tiếng nói và chữ viết dùng trong tố tụng dân sự
104
+
105
+ Tiếng nói và chữ viết dùng trong tố tụng dân sự là tiếng Việt.
106
+
107
+ Người tham gia tố tụng dân sự có quyền dùng tiếng nói và chữ viết của dân tộc
108
+ mình; trường hợp này phải có người phiên dịch.
109
+
110
+ Người tham gia tố tụng dân sự là người khuyết tật nghe, nói hoặc khuyết tật nhìn
111
+ có quyền dùng ngôn ngữ, ký hiệu, chữ dành riêng cho người khuyết tật; trường hợp
112
+ này phải có người biết ngôn ngữ, ký hiệu, chữ dành riêng cho người khuyết tật
113
+ để dịch lại."'
114
+ - 'Thay đổi nơi tập sự hành nghề đấu giá
115
+
116
+ 1. Trường hợp người tập sự thay đổi nơi tập sự sang tổ chức đấu giá tài sản khác
117
+ có trụ sở trong cùng một tỉnh, thành phố trực thuộc Trung ương thì tổ chức đấu
118
+ giá tài sản nơi người tập sự chuyển đến thông báo cho Sở Tư pháp nơi tổ chức đấu
119
+ giá tài sản có trụ sở, kèm theo văn bản xác nhận của tổ chức đấu giá tài sản đã
120
+ nhận tập sự về thời gian và việc thực hiện quyền, nghĩa vụ của người tập sự tại
121
+ tổ chức.
122
+
123
+ Trong thời hạn 03 ngày làm việc kể từ ngày nhận được thông báo, Sở Tư pháp điều
124
+ chỉnh thông tin về việc tập sự của người tập sự trong danh sách người tập sự hành
125
+ nghề đấu giá.
126
+
127
+ 2. Trường hợp người tập sự thay đổi nơi tập sự sang tổ chức đấu giá tài sản có
128
+ trụ sở tại tỉnh, thành phố trực thuộc Trung ương khác thì tổ chức đấu giá tài
129
+ sản nơi người tập sự chuyển đến thông báo cho Sở Tư pháp nơi tổ chức đấu giá tài
130
+ sản có trụ sở, kèm theo văn bản xác nhận của tổ chức đấu giá tài sản đã nhận tập
131
+ sự về thời gian và việc thực hiện quyền, nghĩa vụ của người tập sự tại tổ chức.
132
+
133
+ Tổ chức đấu giá tài sản nơi người tập sự đã tập sự thông báo cho Sở Tư pháp để
134
+ xóa tên người tập sự khỏi danh sách người tập sự của Sở Tư pháp.
135
+
136
+ 3. Trường hợp người tập sự thay đổi nơi tập sự theo quy định tại khoản 1, khoản
137
+ 2 Điều này thì thời gian tập sự được tính bằng tổng thời gian tập sự của người
138
+ đó tại các tổ chức đấu giá tài sản.'
139
+ - source_sentence: Trụ sở tiếp công dân ở trung ương được đặt ở đâu?
140
+ sentences:
141
+ - 'Yêu cầu về sai số
142
+
143
+ Cho phép sai số về chất lượng và kích cỡ trong mỗi bao bì đối với sản phẩm không
144
+ đáp ứng các yêu cầu của mỗi hạng quy định.
145
+
146
+ 4.1. Sai số về chất lượng
147
+
148
+ 4.1.1. Hạng “đặc biệt”
149
+
150
+ Cho phép 5 % số lượng hoặc khối lượng chôm chôm quả tươi không đáp ứng yêu cầu
151
+ của hạng “đặc biệt", nhưng đạt chất lượng hạng I hoặc nằm trong giới hạn sai số
152
+ của hạng I.
153
+
154
+ Ngoài ra, trong mỗi bao bì đựng chôm chôm quả tươi ở dạng chùm cho phép 10 % số
155
+ lượng hoặc khối lượng quả ở dạng rời.
156
+
157
+ 4.1.2. Hạng I
158
+
159
+ Cho phép 10 % số lượng hoặc khối lượng chôm chôm quả tươi không đáp ứng yêu cầu
160
+ của hạng I nhưng đạt chất lượng hạng II hoặc nằm trong giới hạn sai số của hạng
161
+ II.
162
+
163
+ Ngoài ra, trong mỗi bao bì đựng chôm chôm quả tươi ở dạng chùm cho phép 10 % số
164
+ lượng hoặc khối lượng quả ở dạng rời.
165
+
166
+ 4.1.3. Hạng II
167
+
168
+ Cho phép 10 % số lượng hoặc khối lượng chôm chôm quả tươi không đáp ứng yêu cầu
169
+ của hạng II cũng như các yêu cầu tối thiểu, nhưng không có quả bị thối hoặc bất
170
+ kỳ hư hỏng khác không thích hợp cho sử dụng.
171
+
172
+ Ngoài ra, trong mỗi bao bì đựng chôm chôm quả tươi ở dạng chùm cho phép 10 % số
173
+ lượng hoặc khối lượng quả ở dạng rời.
174
+
175
+ 4.2. Sai số về kích cỡ
176
+
177
+ Đối với tất cả các hạng hoặc các dạng trình bày, cho phép 10 % số lượng hoặc khối
178
+ lượng chôm chôm quả tươi tương ứng với kích cỡ cao hơn và/hoặc thấp hơn được ghi
179
+ trên bao bì.'
180
+ - 'Tiếp công dân tại Trụ sở tiếp công dân ở trung ương
181
+
182
+ 1. Trụ sở tiếp công dân ở trung ương được đặt tại Hà Nội và thành phố Hồ Chí Minh,
183
+ là nơi tiếp công dân đến khiếu nại, tố cáo, kiến nghị, phản ánh với các cơ quan
184
+ trung ương của Đảng, Chủ tịch nước, các cơ quan của Quốc hội, Chính phủ.
185
+
186
+ ...'
187
+ - '“Điều 4. Giải thích từ ngữ
188
+
189
+ [...]
190
+
191
+ 21. Tên thương mại là tên gọi của tổ chức, cá nhân dùng trong hoạt động kinh doanh
192
+ để phân biệt chủ thể kinh doanh mang tên gọi đó với chủ thể kinh doanh khác trong
193
+ cùng lĩnh vực và khu vực kinh doanh.
194
+
195
+ Khu vực kinh doanh quy định tại khoản này là khu vực địa lý nơi chủ thể kinh doanh
196
+ có bạn hàng, khách hàng hoặc có danh tiếng.
197
+
198
+ [...]”'
199
+ - source_sentence: Hủy bỏ báo cáo tài chính và chứng từ kế toán để ghi sổ kế toán
200
+ và lập báo cáo tài chính khi chưa hết thời hạn lưu trữ bị xử phạt bao nhiêu?
201
+ sentences:
202
+ - 'Xử phạt hành vi vi phạm quy định về bảo quản, lưu trữ tài liệu kế toán
203
+
204
+ 1. Phạt cảnh cáo đối với một trong các hành vi sau:
205
+
206
+ a) Đưa tài liệu kế toán vào lưu trữ chậm từ 12 tháng trở lên so với thời hạn quy
207
+ định;
208
+
209
+ b) Không sắp xếp tài liệu kế toán đưa vào lưu trữ theo trình tự thời gian phát
210
+ sinh và theo kỳ kế toán năm.
211
+
212
+ 2. Phạt tiền từ 5.000.000 đồng đến 10.000.000 đồng đối với một trong các hành
213
+ vi sau:
214
+
215
+ a) Lưu trữ tài liệu kế toán không đầy đủ theo quy định;
216
+
217
+ b) Bảo quản tài liệu kế toán không an toàn, để hư hỏng, mất mát tài liệu trong
218
+ thời hạn lưu trữ;
219
+
220
+ c) Sử dụng tài liệu kế toán trong thời hạn lưu trữ không đúng quy định;
221
+
222
+ d) Không thực hiện việc tổ chức kiểm kê, phân loại, phục hồi tài liệu kế toán
223
+ bị mất mát hoặc bị hủy hoại.
224
+
225
+ 3. Phạt tiền từ 10.000.000 đồng đến 20.000.000 đồng đối với một trong các hành
226
+ vi sau:
227
+
228
+ a) Hủy bỏ tài liệu kế toán khi chưa hết thời hạn lưu trữ theo quy định của Luật
229
+ kế toán nhưng chưa đến mức truy cứu trách nhiệm hình sự;
230
+
231
+ b) Không thành lập Hội đồng tiêu hủy, không thực hiện đúng phương pháp tiêu hủy
232
+ và không lập biên bản tiêu hủy theo quy định khi thực hiện tiêu hủy tài liệu kế
233
+ toán.'
234
+ - '1. Cơ quan cấp Giấy phép đủ điều kiện kinh doanh yêu cầu tạm dừng kinh doanh
235
+ bằng văn bản khi doanh nghiệp, hộ kinh doanh thuộc một trong các trường hợp sau:
236
+
237
+ a) Vi phạm các điều kiện kinh doanh quy định tại Điều 4 và Điều 5 của Nghị định
238
+ này nhưng chưa gây thiệt hại về tính mạng, sức khỏe hoặc tài sản;
239
+
240
+ b) Vi phạm lần thứ hai về trách nhiệm khi hoạt động kinh doanh quy định tại các
241
+ điều 6, 7 và 8 Nghị định này.
242
+
243
+ 2. Văn bản yêu cầu tạm dừng kinh doanh phải nêu rõ hành vi vi phạm, thời điểm
244
+ và thời hạn tạm dừng. Việc xác định thời hạn tạm dừng căn cứ vào mức độ vi phạm,
245
+ thời hạn khắc phục do cơ quan cấp Giấy phép đủ điều kiện kinh doanh quyết định.
246
+ Thời hạn tạm dừng không quá 03 tháng.
247
+
248
+ 3. Doanh nghiệp hoặc hộ kinh doanh phải dừng kinh doanh theo yêu cầu và khắc phục
249
+ vi phạm.'
250
+ - 'Trách nhiệm của các tổ chức, cá nhân
251
+
252
+ 5.1. Các tổ chức, cá nhân làm nhiệm vụ sản xuất, xuất khẩu, nhập khẩu, lưu thông
253
+ và sử dụng dụng cụ điện cầm tay truyền động bằng động cơ có trách nhiệm tuân thủ
254
+ các quy định tại Quy chuẩn này.
255
+
256
+ 5.2. Quy chuẩn này là căn cứ để các cơ quan kiểm tra chất lượng dụng cụ điện cầm
257
+ tay tiến hành việc kiểm tra và cũng là căn cứ để các tổ chức đánh giá sự phù hợp
258
+ tiến hành chứng nhận hợp chuẩn đối với dụng cụ điện cầm tay truyền động bằng động
259
+ cơ theo các quy định về kỹ thuật nêu tại mục 2 của quy chuẩn này.
260
+
261
+ Việc chứng nhận hợp quy được thực hiện theo phương thức 7 nếu dụng cụ điện cầm
262
+ tay được sản xuất hay nhập khẩu hàng loạt hoặc theo phương thức 8 nếu dụng cụ
263
+ điện cầm tay được sản xuất hay nhập khẩu đơn chiếc (theo quy định về chứng nhận
264
+ hợp chuẩn, chứng nhận hợp quy và công bố hợp chuẩn, công bố hợp quy ban hành kèm
265
+ theo Quyết định số 24/2007/QĐ-BKHCN ngày 28 tháng 9 năm 2007 của Bộ trưởng Bộ
266
+ Khoa học và Công nghệ).'
267
+ - source_sentence: Đơn tố cáo nặc danh có được tiếp nhận xử lý không?
268
+ sentences:
269
+ - '1. Trước khi thụ lý tố cáo, người giải quyết tố cáo tự mình hoặc giao cơ quan
270
+ thanh tra nhà nước cùng cấp hoặc cơ quan, tổ chức, cá nhân khác xác minh thông
271
+ tin về người tố cáo và điều kiện thụ lý tố cáo. Trường hợp người tố cáo không
272
+ cư trú tại địa bàn quản lý hoặc gặp khó khăn trong việc xác minh thì người giải
273
+ quyết tố cáo có thể ủy quyền cho cơ quan nhà nước ngang cấp hoặc cơ quan nhà nước
274
+ cấp dưới xác minh thông tin cần thiết phục vụ việc ra quyết định thụ lý tố cáo.
275
+ Việc thụ lý tố cáo được thực hiện theo quy định tại Điều 29 Luật Tố cáo. Quyết
276
+ định thụ lý tố cáo được thực hiện theo Mẫu số 04 tại Phụ lục ban hành kèm theo
277
+ Nghị định này.
278
+
279
+ 2. Trong thời hạn 05 ngày làm việc kể từ ngày ra quyết định thụ lý tố cáo, người
280
+ giải quyết tố cáo có trách nhiệm thông báo cho người tố cáo và thông báo về nội
281
+ dung tố cáo cho người bị tố cáo biết. Thông báo việc thụ lý tố cáo được thực hiện
282
+ theo Mẫu số 05, thông báo về nội dung tố cáo cho người bị tố cáo thực hiện theo
283
+ Mẫu số 06 tại Phụ lục ban hành kèm theo Nghị định này.'
284
+ - 'Chương trình, tài liệu đào tạo, bồi dưỡng
285
+
286
+ ...
287
+
288
+ 2. Chương trình, tài liệu bồi dưỡng:
289
+
290
+ a) Chương trình, tài liệu bồi dưỡng theo tiêu chuẩn ngạch công chức, thời gian
291
+ thực hiện tối thiểu là 06 tuần, tối đa là 08 tuần, bao gồm:
292
+
293
+ - Chương trình bồi dưỡng ngạch cán sự và tương đương;
294
+
295
+ - Chương trình bồi dưỡng các ngạch: chuyên viên và tương đương; chuyên viên chính
296
+ và tương đương; chuyên viên cao cấp và tương đương.
297
+
298
+ b) Chương trình, tài liệu bồi dưỡng theo tiêu chuẩn chức vụ cán bộ lãnh đạo, quản
299
+ lý, thời gian thực hiện tối thiểu là 02 tuần, tối đa là 04 tuần, bao gồm:
300
+
301
+ - Chương trình bồi dưỡng lãnh đạo cấp phòng và tương đương;
302
+
303
+ - Chương trình bồi dưỡng lãnh đạo VKSND cấp huyện và tương đương;
304
+
305
+ - Chương trình bồi dưỡng lãnh đạo VKSND cấp tỉnh, lãnh đạo cấp vụ và tương đương.
306
+
307
+ c) Chương trình, tài liệu bồi dưỡng theo yêu cầu của vị trí việc làm, kiến thức,
308
+ kỹ năng chuyên ngành, thời gian thực hiện tối đa là 01 tuần.
309
+
310
+ d) Đối với việc bồi dưỡng lãnh đạo VKSND tối cao và các chương trình bồi dưỡng
311
+ khác (bao gồm bồi dưỡng viên chức) thực hiện theo quy định của Đảng và Nhà nước.'
312
+ - '1. Trình tự cấp Giấy chứng nhận.
313
+
314
+ a) Trình tự cấp Giấy chứng nhận đủ điều kiện sản xuất phân bón như sau:
315
+
316
+ Tổ chức, cá nhân gửi hồ sơ đến cơ quan có thẩm quyền cấp quy định tại khoản 1
317
+ Điều 13 Nghị định này.
318
+
319
+ Trong thời hạn 20 ngày làm việc, kể từ ngày nhận đủ hồ sơ, cơ quan có thẩm quyền
320
+ thẩm định nội dung hồ sơ, nếu hồ sơ đạt yêu cầu thực hiện kiểm tra thực tế điều
321
+ kiện sản xuất phân bón, việc thực hiện nghĩa vụ của tổ chức, cá nhân sản xuất
322
+ phân bón theo quy định tại điểm i khoản 2 Điều 50 Luật Trồng trọt và lập biên
323
+ bản kiểm tra theo Mẫu số 12 Phụ lục I ban hành kèm theo Nghị định này.
324
+
325
+ Trường hợp tổ chức, cá nhân sản xuất phân bón không đáp ứng điều kiện, phải thực
326
+ hiện khắc phục, sau khi khắc phục có văn bản thông báo đến cơ quan có thẩm quyền
327
+ để tổ chức kiểm tra nội dung đã khắc phục. Trường hợp kết quả kiểm tra đạt yêu
328
+ cầu, trong thời hạn 05 ngày làm việc kể từ ngày kết thúc kiểm tra, cơ quan có
329
+ thẩm quyền cấp Giấy chứng nhận đủ điều kiện sản xuất phân bón theo Mẫu số 10 tại
330
+ Phụ lục I ban hành kèm theo Nghị định này. Trường hợp không cấp Giấy chứng nhận
331
+ đủ điều kiện sản xuất phân bón phải trả lời bằng văn bản và nêu rõ lý do.
332
+
333
+ b) Trình tự cấp Giấy chứng nhận đủ điều kiện buôn bán phân bón như sau:
334
+
335
+ Tổ chức, cá nhân gửi hồ sơ đến cơ quan có thẩm quyền cấp quy định tại khoản 2
336
+ Điều 13 Nghị định này.
337
+
338
+ Trong thời hạn 10 ngày làm việc, kể từ ngày nhận đủ hồ sơ, cơ quan có thẩm quyền
339
+ thẩm định nội dung hồ sơ, nếu hồ sơ đạt yêu cầu thực hiện kiểm tra điều kiện buôn
340
+ bán phân bón tại tổ chức, cá nhân và lập biên bản kiểm tra theo Mẫu số 12 tại
341
+ Phụ lục I ban hành kèm theo Nghị định này.
342
+
343
+ Trường hợp tổ chức, cá nhân buôn bán phân bón không đáp ứng điều kiện, phải thực
344
+ hiện khắc phục, sau khi khắc phục có văn bản thông báo đến cơ quan có thẩm quyền
345
+ để kiểm tra nội dung đã khắc phục. Trường hợp kết quả kiểm tra đạt yêu cầu, trong
346
+ thời hạn 03 ngày làm việc kể từ ngày kết thúc kiểm tra, cơ quan có thẩm quyền
347
+ cấp Giấy chứng nhận đủ điều kiện buôn bán phân bón theo Mẫu số 11 tại Phụ lục
348
+ I ban hành kèm theo Nghị định này. Trường hợp không cấp Giấy chứng nhận đủ điều
349
+ kiện buôn bán phân bón phải trả lời bằng văn bản và nêu rõ lý do.
350
+
351
+ 2. Trình tự cấp lại Giấy chứng nhận.
352
+
353
+ a) Trình tự cấp lại Giấy chứng nhận đủ điều kiện sản xuất phân bón quy định tại
354
+ khoản 1, 4 và 5 Điều 16 Nghị định này thực hiện theo quy định tại điểm a khoản
355
+ 1 Điều này.
356
+
357
+ b) Trình tự cấp lại Giấy chứng nhận đủ điều kiện buôn bán phân bón quy định tại
358
+ khoản 4 Điều 16 Nghị định này thực hiện theo quy định tại điểm b khoản 1 Điều
359
+ này.
360
+
361
+ c) Trình tự cấp lại Giấy chứng nhận quy định tại khoản 2 và 3 Điều 16 Nghị định
362
+ này.
363
+
364
+ Trong thời hạn 05 ngày làm việc, kể từ ngày nhận đủ hồ sơ hợp lệ cơ quan có thẩm
365
+ quyền cấp lại Giấy chứng nhận. Trường hợp không cấp phải trả lời bằng văn bản
366
+ và nêu rõ lý do.
367
+
368
+ Thời hạn của Giấy chứng nhận cấp lại theo thời hạn của Giấy chứng nhận đã cấp.'
369
+ pipeline_tag: sentence-similarity
370
+ ---
371
+
372
+ # SentenceTransformer based on comet24082002/finetune_bge_simsce_V1
373
+
374
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [comet24082002/finetune_bge_simsce_V1](https://huggingface.co/comet24082002/finetune_bge_simsce_V1). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
375
+
376
+ ## Model Details
377
+
378
+ ### Model Description
379
+ - **Model Type:** Sentence Transformer
380
+ - **Base model:** [comet24082002/finetune_bge_simsce_V1](https://huggingface.co/comet24082002/finetune_bge_simsce_V1) <!-- at revision af7a9066abe057bf5109dcd3d877747dcc61227c -->
381
+ - **Maximum Sequence Length:** 512 tokens
382
+ - **Output Dimensionality:** 1024 tokens
383
+ - **Similarity Function:** Cosine Similarity
384
+ <!-- - **Training Dataset:** Unknown -->
385
+ <!-- - **Language:** Unknown -->
386
+ <!-- - **License:** Unknown -->
387
+
388
+ ### Model Sources
389
+
390
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
391
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
392
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
393
+
394
+ ### Full Model Architecture
395
+
396
+ ```
397
+ SentenceTransformer(
398
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
399
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
400
+ (2): Normalize()
401
+ )
402
+ ```
403
+
404
+ ## Usage
405
+
406
+ ### Direct Usage (Sentence Transformers)
407
+
408
+ First install the Sentence Transformers library:
409
+
410
+ ```bash
411
+ pip install -U sentence-transformers
412
+ ```
413
+
414
+ Then you can load this model and run inference.
415
+ ```python
416
+ from sentence_transformers import SentenceTransformer
417
+
418
+ # Download from the 🤗 Hub
419
+ model = SentenceTransformer("comet24082002/ft_bge_newLaw_MultipleNegativeRankingLoss_SimSCE_V1_5epochs")
420
+ # Run inference
421
+ sentences = [
422
+ 'Đơn tố cáo nặc danh có được tiếp nhận xử lý không?',
423
+ '1. Trước khi thụ lý tố cáo, người giải quyết tố cáo tự mình hoặc giao cơ quan thanh tra nhà nước cùng cấp hoặc cơ quan, tổ chức, cá nhân khác xác minh thông tin về người tố cáo và điều kiện thụ lý tố cáo. Trường hợp người tố cáo không cư trú tại địa bàn quản lý hoặc gặp khó khăn trong việc xác minh thì người giải quyết tố cáo có thể ủy quyền cho cơ quan nhà nước ngang cấp hoặc cơ quan nhà nước cấp dưới xác minh thông tin cần thiết phục vụ việc ra quyết định thụ lý tố cáo. Việc thụ lý tố cáo được thực hiện theo quy định tại Điều 29 Luật Tố cáo. Quyết định thụ lý tố cáo được thực hiện theo Mẫu số 04 tại Phụ lục ban hành kèm theo Nghị định này.\n2. Trong thời hạn 05 ngày làm việc kể từ ngày ra quyết định thụ lý tố cáo, người giải quyết tố cáo có trách nhiệm thông báo cho người tố cáo và thông báo về nội dung tố cáo cho người bị tố cáo biết. Thông báo việc thụ lý tố cáo được thực hiện theo Mẫu số 05, thông báo về nội dung tố cáo cho người bị tố cáo thực hiện theo Mẫu số 06 tại Phụ lục ban hành kèm theo Nghị định này.',
424
+ 'Chương trình, tài liệu đào tạo, bồi dưỡng\n...\n2. Chương trình, tài liệu bồi dưỡng:\na) Chương trình, tài liệu bồi dưỡng theo tiêu chuẩn ngạch công chức, thời gian thực hiện tối thiểu là 06 tuần, tối đa là 08 tuần, bao gồm:\n- Chương trình bồi dưỡng ngạch cán sự và tương đương;\n- Chương trình bồi dưỡng các ngạch: chuyên viên và tương đương; chuyên viên chính và tương đương; chuyên viên cao cấp và tương đương.\nb) Chương trình, tài liệu bồi dưỡng theo tiêu chuẩn chức vụ cán bộ lãnh đạo, quản lý, thời gian thực hiện tối thiểu là 02 tuần, tối đa là 04 tuần, bao gồm:\n- Chương trình bồi dưỡng lãnh đạo cấp phòng và tương đương;\n- Chương trình bồi dưỡng lãnh đạo VKSND cấp huyện và tương đương;\n- Chương trình bồi dưỡng lãnh đạo VKSND cấp tỉnh, lãnh đạo cấp vụ và tương đương.\nc) Chương trình, tài liệu bồi dưỡng theo yêu cầu của vị trí việc làm, kiến thức, kỹ năng chuyên ngành, thời gian thực hiện tối đa là 01 tuần.\nd) Đối với việc bồi dưỡng lãnh đạo VKSND tối cao và các chương trình bồi dưỡng khác (bao gồm bồi dưỡng viên chức) thực hiện theo quy định của Đảng và Nhà nước.',
425
+ ]
426
+ embeddings = model.encode(sentences)
427
+ print(embeddings.shape)
428
+ # [3, 1024]
429
+
430
+ # Get the similarity scores for the embeddings
431
+ similarities = model.similarity(embeddings, embeddings)
432
+ print(similarities.shape)
433
+ # [3, 3]
434
+ ```
435
+
436
+ <!--
437
+ ### Direct Usage (Transformers)
438
+
439
+ <details><summary>Click to see the direct usage in Transformers</summary>
440
+
441
+ </details>
442
+ -->
443
+
444
+ <!--
445
+ ### Downstream Usage (Sentence Transformers)
446
+
447
+ You can finetune this model on your own dataset.
448
+
449
+ <details><summary>Click to expand</summary>
450
+
451
+ </details>
452
+ -->
453
+
454
+ <!--
455
+ ### Out-of-Scope Use
456
+
457
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
458
+ -->
459
+
460
+ <!--
461
+ ## Bias, Risks and Limitations
462
+
463
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
464
+ -->
465
+
466
+ <!--
467
+ ### Recommendations
468
+
469
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
470
+ -->
471
+
472
+ ## Training Details
473
+
474
+ ### Training Dataset
475
+
476
+ #### Unnamed Dataset
477
+
478
+
479
+ * Size: 10,524 training samples
480
+ * Columns: <code>anchor</code> and <code>positive</code>
481
+ * Approximate statistics based on the first 1000 samples:
482
+ | | anchor | positive |
483
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
484
+ | type | string | string |
485
+ | details | <ul><li>min: 8 tokens</li><li>mean: 24.26 tokens</li><li>max: 52 tokens</li></ul> | <ul><li>min: 18 tokens</li><li>mean: 266.55 tokens</li><li>max: 512 tokens</li></ul> |
486
+ * Samples:
487
+ | anchor | positive |
488
+ |:-----------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
489
+ | <code>Phó trưởng phòng của một đơn vị sự nghiệp công lập có được bổ nhiệm làm kế toán trưởng tại đơn vị mình đang công tác không?</code> | <code>“Điều 52. Những người không được làm kế toán <br>1. Người chưa thành niên; người bị Tòa án tuyên bố hạn chế hoặc mất năng lực hành vi dân sự; người đang phải chấp hành biện pháp đưa vào cơ sở giáo dục bắt buộc, cơ sở cai nghiện bắt buộc.<br>2. Người đang bị cấm hành nghề kế toán theo bản án hoặc quyết định của Tòa án đã có hiệu lực pháp luật; người đang bị truy cứu trách nhiệm hình sự; người đang phải chấp hành hình phạt tù hoặc đã bị kết án về một trong các tội xâm phạm trật tự quản lý kinh tế, tội phạm về chức vụ liên quan đến tài chính, kế toán mà chưa được xóa án tích. <br>3. Cha đẻ, mẹ đẻ, cha nuôi, mẹ nuôi, vợ, chồng, con đẻ, con nuôi, anh, chị, em ruột của người đại diện theo pháp luật, của người đứng đầu, của giám đốc, tổng giám đốc và của cấp phó của người đứng đầu, phó giám đốc, phó tổng giám đốc phụ trách công tác tài chính - kế toán, kế toán trưởng trong cùng một đơn vị kế toán, trừ doanh nghiệp tư nhân, công ty trách nhiệm hữu hạn do một cá nhân làm chủ sở hữu và các trường hợp khác do Chính phủ quy định. <br>4. Người đang là người quản lý, điều hành, thủ kho, thủ quỹ, người mua, bán tài sản trong cùng một đơn vị kế toán, trừ trong doanh nghiệp tư nhân, công ty trách nhiệm hữu hạn do một cá nhân làm chủ sở hữu và các trường hợp khác do Chính phủ quy định.” </code> |
490
+ | <code>Có được hưởng cùng lúc trợ cấp thất nghiệp và bảo hiểm thai sản không?</code> | <code>“Điều 31. Điều kiện hưởng chế độ thai sản<br> 1. Người lao động được hưởng chế độ thai sản khi thuộc một trong các trường hợp sau đây:<br> a) Lao động nữ mang thai;<br>b) Lao động nữ sinh con;<br> c) Lao động nữ mang thai hộ và người mẹ nhờ mang thai hộ;<br> d) Người lao động nhận nuôi con nuôi dưới 06 tháng tuổi;<br> đ) Lao động nữ đặt vòng tránh thai, người lao động thực hiện biện pháp triệt sản;<br> e) Lao động nam đang đóng bảo hiểm xã hội có vợ sinh con.<br> 2. Người lao động quy định tại các điểm b, c và d khoản 1 Điều này phải đóng bảo hiểm xã hội từ đủ 06 tháng trở lên trong thời gian 12 tháng trước khi sinh con hoặc nhận nuôi con nuôi.<br> 3. Người lao động quy định tại điểm b khoản 1 Điều này đã đóng bảo hiểm xã hội từ đủ 12 tháng trở lên mà khi mang thai phải nghỉ việc để dưỡng thai theo chỉ định của cơ sở khám bệnh, chữa bệnh có thẩm quyền thì phải đóng bảo hiểm xã hội từ đủ 03 tháng trở lên trong thời gian 12 tháng trước khi sinh con.<br>4. Người lao động đủ điều kiện quy định tại khoản 2 và khoản 3 Điều này mà chấm dứt hợp đồng lao động, hợp đồng làm việc hoặc thôi việc trước thời điểm sinh con hoặc nhận con nuôi dưới 06 tháng tuổi thì vẫn được hưởng chế độ thai sản theo quy định tại các Điều 34, 36, 38 và khoản 1 Điều 39 của Luật này.”</code> |
491
+ | <code>Viên chức cảng vụ hàng không phải đáp ứng những tiêu chuẩn nào?</code> | <code>Cảng vụ viên hàng không hạng V - Mã số V.12.01.05<br>...<br>2. Tiêu chuẩn về trình độ đào tạo, bồi dưỡng<br>a) Có bằng tốt nghiệp trung cấp trở lên với ngành, chuyên ngành đào tạo phù hợp với vị trí việc làm;<br>b) Có chứng chỉ bồi dưỡng theo tiêu chuẩn chức danh nghề nghiệp viên chức chuyên ngành cảng vụ hàng không.<br>3. Tiêu chuẩn về năng lực chuyên môn, nghiệp vụ<br>a) Nắm chắc các nguyên tắc và các hướng dẫn nghiệp vụ, quy trình tác nghiệp theo yêu cầu nhiệm vụ được giao;<br>b) Có kỹ năng sử dụng công nghệ thông tin cơ bản và sử dụng được ngoại ngữ hoặc sử dụng được tiếng dân tộc thiểu số đối với viên chức công tác ở vùng dân tộc thiểu số theo yêu cầu của vị trí việc làm;<br>c) Sử dụng thành thạo các phương tiện, thiết bị kỹ thuật phục vụ yêu cầu nhiệm vụ.</code> |
492
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
493
+ ```json
494
+ {
495
+ "scale": 20.0,
496
+ "similarity_fct": "cos_sim"
497
+ }
498
+ ```
499
+
500
+ ### Training Hyperparameters
501
+ #### Non-Default Hyperparameters
502
+
503
+ - `per_device_train_batch_size`: 4
504
+ - `learning_rate`: 2e-05
505
+ - `num_train_epochs`: 5
506
+ - `warmup_ratio`: 0.1
507
+
508
+ #### All Hyperparameters
509
+ <details><summary>Click to expand</summary>
510
+
511
+ - `overwrite_output_dir`: False
512
+ - `do_predict`: False
513
+ - `eval_strategy`: no
514
+ - `prediction_loss_only`: True
515
+ - `per_device_train_batch_size`: 4
516
+ - `per_device_eval_batch_size`: 8
517
+ - `per_gpu_train_batch_size`: None
518
+ - `per_gpu_eval_batch_size`: None
519
+ - `gradient_accumulation_steps`: 1
520
+ - `eval_accumulation_steps`: None
521
+ - `learning_rate`: 2e-05
522
+ - `weight_decay`: 0.0
523
+ - `adam_beta1`: 0.9
524
+ - `adam_beta2`: 0.999
525
+ - `adam_epsilon`: 1e-08
526
+ - `max_grad_norm`: 1.0
527
+ - `num_train_epochs`: 5
528
+ - `max_steps`: -1
529
+ - `lr_scheduler_type`: linear
530
+ - `lr_scheduler_kwargs`: {}
531
+ - `warmup_ratio`: 0.1
532
+ - `warmup_steps`: 0
533
+ - `log_level`: passive
534
+ - `log_level_replica`: warning
535
+ - `log_on_each_node`: True
536
+ - `logging_nan_inf_filter`: True
537
+ - `save_safetensors`: True
538
+ - `save_on_each_node`: False
539
+ - `save_only_model`: False
540
+ - `restore_callback_states_from_checkpoint`: False
541
+ - `no_cuda`: False
542
+ - `use_cpu`: False
543
+ - `use_mps_device`: False
544
+ - `seed`: 42
545
+ - `data_seed`: None
546
+ - `jit_mode_eval`: False
547
+ - `use_ipex`: False
548
+ - `bf16`: False
549
+ - `fp16`: False
550
+ - `fp16_opt_level`: O1
551
+ - `half_precision_backend`: auto
552
+ - `bf16_full_eval`: False
553
+ - `fp16_full_eval`: False
554
+ - `tf32`: None
555
+ - `local_rank`: 0
556
+ - `ddp_backend`: None
557
+ - `tpu_num_cores`: None
558
+ - `tpu_metrics_debug`: False
559
+ - `debug`: []
560
+ - `dataloader_drop_last`: False
561
+ - `dataloader_num_workers`: 0
562
+ - `dataloader_prefetch_factor`: None
563
+ - `past_index`: -1
564
+ - `disable_tqdm`: False
565
+ - `remove_unused_columns`: True
566
+ - `label_names`: None
567
+ - `load_best_model_at_end`: False
568
+ - `ignore_data_skip`: False
569
+ - `fsdp`: []
570
+ - `fsdp_min_num_params`: 0
571
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
572
+ - `fsdp_transformer_layer_cls_to_wrap`: None
573
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
574
+ - `deepspeed`: None
575
+ - `label_smoothing_factor`: 0.0
576
+ - `optim`: adamw_torch
577
+ - `optim_args`: None
578
+ - `adafactor`: False
579
+ - `group_by_length`: False
580
+ - `length_column_name`: length
581
+ - `ddp_find_unused_parameters`: None
582
+ - `ddp_bucket_cap_mb`: None
583
+ - `ddp_broadcast_buffers`: False
584
+ - `dataloader_pin_memory`: True
585
+ - `dataloader_persistent_workers`: False
586
+ - `skip_memory_metrics`: True
587
+ - `use_legacy_prediction_loop`: False
588
+ - `push_to_hub`: False
589
+ - `resume_from_checkpoint`: None
590
+ - `hub_model_id`: None
591
+ - `hub_strategy`: every_save
592
+ - `hub_private_repo`: False
593
+ - `hub_always_push`: False
594
+ - `gradient_checkpointing`: False
595
+ - `gradient_checkpointing_kwargs`: None
596
+ - `include_inputs_for_metrics`: False
597
+ - `eval_do_concat_batches`: True
598
+ - `fp16_backend`: auto
599
+ - `push_to_hub_model_id`: None
600
+ - `push_to_hub_organization`: None
601
+ - `mp_parameters`:
602
+ - `auto_find_batch_size`: False
603
+ - `full_determinism`: False
604
+ - `torchdynamo`: None
605
+ - `ray_scope`: last
606
+ - `ddp_timeout`: 1800
607
+ - `torch_compile`: False
608
+ - `torch_compile_backend`: None
609
+ - `torch_compile_mode`: None
610
+ - `dispatch_batches`: None
611
+ - `split_batches`: None
612
+ - `include_tokens_per_second`: False
613
+ - `include_num_input_tokens_seen`: False
614
+ - `neftune_noise_alpha`: None
615
+ - `optim_target_modules`: None
616
+ - `batch_eval_metrics`: False
617
+ - `batch_sampler`: batch_sampler
618
+ - `multi_dataset_batch_sampler`: proportional
619
+
620
+ </details>
621
+
622
+ ### Training Logs
623
+ <details><summary>Click to expand</summary>
624
+
625
+ | Epoch | Step | Training Loss |
626
+ |:------:|:-----:|:-------------:|
627
+ | 0.0190 | 50 | 0.123 |
628
+ | 0.0380 | 100 | 0.1534 |
629
+ | 0.0570 | 150 | 0.0364 |
630
+ | 0.0760 | 200 | 0.0487 |
631
+ | 0.0950 | 250 | 0.0341 |
632
+ | 0.1140 | 300 | 0.0303 |
633
+ | 0.1330 | 350 | 0.0091 |
634
+ | 0.1520 | 400 | 0.0194 |
635
+ | 0.1710 | 450 | 0.0113 |
636
+ | 0.1900 | 500 | 0.0252 |
637
+ | 0.2090 | 550 | 0.0138 |
638
+ | 0.2281 | 600 | 0.0155 |
639
+ | 0.2471 | 650 | 0.0274 |
640
+ | 0.2661 | 700 | 0.0324 |
641
+ | 0.2851 | 750 | 0.0071 |
642
+ | 0.3041 | 800 | 0.0135 |
643
+ | 0.3231 | 850 | 0.0274 |
644
+ | 0.3421 | 900 | 0.0067 |
645
+ | 0.3611 | 950 | 0.0095 |
646
+ | 0.3801 | 1000 | 0.0218 |
647
+ | 0.3991 | 1050 | 0.0292 |
648
+ | 0.4181 | 1100 | 0.0041 |
649
+ | 0.4371 | 1150 | 0.0072 |
650
+ | 0.4561 | 1200 | 0.0051 |
651
+ | 0.4751 | 1250 | 0.004 |
652
+ | 0.4941 | 1300 | 0.0043 |
653
+ | 0.5131 | 1350 | 0.0067 |
654
+ | 0.5321 | 1400 | 0.0089 |
655
+ | 0.5511 | 1450 | 0.0281 |
656
+ | 0.5701 | 1500 | 0.0186 |
657
+ | 0.5891 | 1550 | 0.0316 |
658
+ | 0.6081 | 1600 | 0.0046 |
659
+ | 0.6271 | 1650 | 0.0331 |
660
+ | 0.6461 | 1700 | 0.018 |
661
+ | 0.6651 | 1750 | 0.0097 |
662
+ | 0.6842 | 1800 | 0.0629 |
663
+ | 0.7032 | 1850 | 0.0388 |
664
+ | 0.7222 | 1900 | 0.0084 |
665
+ | 0.7412 | 1950 | 0.0312 |
666
+ | 0.7602 | 2000 | 0.0409 |
667
+ | 0.7792 | 2050 | 0.0236 |
668
+ | 0.7982 | 2100 | 0.0248 |
669
+ | 0.8172 | 2150 | 0.0287 |
670
+ | 0.8362 | 2200 | 0.0564 |
671
+ | 0.8552 | 2250 | 0.0381 |
672
+ | 0.8742 | 2300 | 0.013 |
673
+ | 0.8932 | 2350 | 0.0213 |
674
+ | 0.9122 | 2400 | 0.009 |
675
+ | 0.9312 | 2450 | 0.0105 |
676
+ | 0.9502 | 2500 | 0.0369 |
677
+ | 0.9692 | 2550 | 0.0545 |
678
+ | 0.9882 | 2600 | 0.0473 |
679
+ | 1.0072 | 2650 | 0.0475 |
680
+ | 1.0262 | 2700 | 0.0069 |
681
+ | 1.0452 | 2750 | 0.002 |
682
+ | 1.0642 | 2800 | 0.011 |
683
+ | 1.0832 | 2850 | 0.0061 |
684
+ | 1.1022 | 2900 | 0.009 |
685
+ | 1.1212 | 2950 | 0.007 |
686
+ | 1.1403 | 3000 | 0.006 |
687
+ | 1.1593 | 3050 | 0.0037 |
688
+ | 1.1783 | 3100 | 0.0185 |
689
+ | 1.1973 | 3150 | 0.0071 |
690
+ | 1.2163 | 3200 | 0.0049 |
691
+ | 1.2353 | 3250 | 0.0094 |
692
+ | 1.2543 | 3300 | 0.0079 |
693
+ | 1.2733 | 3350 | 0.0084 |
694
+ | 1.2923 | 3400 | 0.0053 |
695
+ | 1.3113 | 3450 | 0.0019 |
696
+ | 1.3303 | 3500 | 0.0259 |
697
+ | 1.3493 | 3550 | 0.0022 |
698
+ | 1.3683 | 3600 | 0.0131 |
699
+ | 1.3873 | 3650 | 0.0266 |
700
+ | 1.4063 | 3700 | 0.0321 |
701
+ | 1.4253 | 3750 | 0.0168 |
702
+ | 1.4443 | 3800 | 0.0498 |
703
+ | 1.4633 | 3850 | 0.0075 |
704
+ | 1.4823 | 3900 | 0.0026 |
705
+ | 1.5013 | 3950 | 0.001 |
706
+ | 1.5203 | 4000 | 0.0344 |
707
+ | 1.5393 | 4050 | 0.0081 |
708
+ | 1.5583 | 4100 | 0.0049 |
709
+ | 1.5773 | 4150 | 0.0102 |
710
+ | 1.5964 | 4200 | 0.0129 |
711
+ | 1.6154 | 4250 | 0.0061 |
712
+ | 1.6344 | 4300 | 0.0028 |
713
+ | 1.6534 | 4350 | 0.0134 |
714
+ | 1.6724 | 4400 | 0.0075 |
715
+ | 1.6914 | 4450 | 0.0229 |
716
+ | 1.7104 | 4500 | 0.0051 |
717
+ | 1.7294 | 4550 | 0.002 |
718
+ | 1.7484 | 4600 | 0.0054 |
719
+ | 1.7674 | 4650 | 0.0128 |
720
+ | 1.7864 | 4700 | 0.0022 |
721
+ | 1.8054 | 4750 | 0.0009 |
722
+ | 1.8244 | 4800 | 0.0102 |
723
+ | 1.8434 | 4850 | 0.0066 |
724
+ | 1.8624 | 4900 | 0.003 |
725
+ | 1.8814 | 4950 | 0.0031 |
726
+ | 1.9004 | 5000 | 0.0013 |
727
+ | 1.9194 | 5050 | 0.0029 |
728
+ | 1.9384 | 5100 | 0.0396 |
729
+ | 1.9574 | 5150 | 0.0054 |
730
+ | 1.9764 | 5200 | 0.0054 |
731
+ | 1.9954 | 5250 | 0.015 |
732
+ | 2.0144 | 5300 | 0.0045 |
733
+ | 2.0334 | 5350 | 0.0027 |
734
+ | 2.0525 | 5400 | 0.0037 |
735
+ | 2.0715 | 5450 | 0.0049 |
736
+ | 2.0905 | 5500 | 0.0016 |
737
+ | 2.1095 | 5550 | 0.0009 |
738
+ | 2.1285 | 5600 | 0.0012 |
739
+ | 2.1475 | 5650 | 0.002 |
740
+ | 2.1665 | 5700 | 0.0078 |
741
+ | 2.1855 | 5750 | 0.0255 |
742
+ | 2.2045 | 5800 | 0.0277 |
743
+ | 2.2235 | 5850 | 0.0012 |
744
+ | 2.2425 | 5900 | 0.0012 |
745
+ | 2.2615 | 5950 | 0.0014 |
746
+ | 2.2805 | 6000 | 0.0013 |
747
+ | 2.2995 | 6050 | 0.0047 |
748
+ | 2.3185 | 6100 | 0.0013 |
749
+ | 2.3375 | 6150 | 0.0076 |
750
+ | 2.3565 | 6200 | 0.009 |
751
+ | 2.3755 | 6250 | 0.0007 |
752
+ | 2.3945 | 6300 | 0.0087 |
753
+ | 2.4135 | 6350 | 0.0002 |
754
+ | 2.4325 | 6400 | 0.0017 |
755
+ | 2.4515 | 6450 | 0.0106 |
756
+ | 2.4705 | 6500 | 0.0016 |
757
+ | 2.4895 | 6550 | 0.0011 |
758
+ | 2.5086 | 6600 | 0.0024 |
759
+ | 2.5276 | 6650 | 0.0092 |
760
+ | 2.5466 | 6700 | 0.0012 |
761
+ | 2.5656 | 6750 | 0.0143 |
762
+ | 2.5846 | 6800 | 0.0015 |
763
+ | 2.6036 | 6850 | 0.0008 |
764
+ | 2.6226 | 6900 | 0.0149 |
765
+ | 2.6416 | 6950 | 0.0058 |
766
+ | 2.6606 | 7000 | 0.0227 |
767
+ | 2.6796 | 7050 | 0.0004 |
768
+ | 2.6986 | 7100 | 0.0066 |
769
+ | 2.7176 | 7150 | 0.0059 |
770
+ | 2.7366 | 7200 | 0.0011 |
771
+ | 2.7556 | 7250 | 0.0323 |
772
+ | 2.7746 | 7300 | 0.0016 |
773
+ | 2.7936 | 7350 | 0.0023 |
774
+ | 2.8126 | 7400 | 0.0107 |
775
+ | 2.8316 | 7450 | 0.0015 |
776
+ | 2.8506 | 7500 | 0.0023 |
777
+ | 2.8696 | 7550 | 0.0058 |
778
+ | 2.8886 | 7600 | 0.0004 |
779
+ | 2.9076 | 7650 | 0.0103 |
780
+ | 2.9266 | 7700 | 0.0005 |
781
+ | 2.9456 | 7750 | 0.0013 |
782
+ | 2.9647 | 7800 | 0.0004 |
783
+ | 2.9837 | 7850 | 0.0018 |
784
+ | 3.0027 | 7900 | 0.0016 |
785
+ | 3.0217 | 7950 | 0.0034 |
786
+ | 3.0407 | 8000 | 0.0012 |
787
+ | 3.0597 | 8050 | 0.0046 |
788
+ | 3.0787 | 8100 | 0.001 |
789
+ | 3.0977 | 8150 | 0.0005 |
790
+ | 3.1167 | 8200 | 0.0037 |
791
+ | 3.1357 | 8250 | 0.0046 |
792
+ | 3.1547 | 8300 | 0.0013 |
793
+ | 3.1737 | 8350 | 0.0011 |
794
+ | 3.1927 | 8400 | 0.0107 |
795
+ | 3.2117 | 8450 | 0.0012 |
796
+ | 3.2307 | 8500 | 0.0025 |
797
+ | 3.2497 | 8550 | 0.0018 |
798
+ | 3.2687 | 8600 | 0.0005 |
799
+ | 3.2877 | 8650 | 0.0051 |
800
+ | 3.3067 | 8700 | 0.0006 |
801
+ | 3.3257 | 8750 | 0.0004 |
802
+ | 3.3447 | 8800 | 0.003 |
803
+ | 3.3637 | 8850 | 0.0055 |
804
+ | 3.3827 | 8900 | 0.015 |
805
+ | 3.4017 | 8950 | 0.016 |
806
+ | 3.4208 | 9000 | 0.0008 |
807
+ | 3.4398 | 9050 | 0.0006 |
808
+ | 3.4588 | 9100 | 0.0004 |
809
+ | 3.4778 | 9150 | 0.0008 |
810
+ | 3.4968 | 9200 | 0.0167 |
811
+ | 3.5158 | 9250 | 0.0004 |
812
+ | 3.5348 | 9300 | 0.0051 |
813
+ | 3.5538 | 9350 | 0.0093 |
814
+ | 3.5728 | 9400 | 0.0004 |
815
+ | 3.5918 | 9450 | 0.003 |
816
+ | 3.6108 | 9500 | 0.0005 |
817
+ | 3.6298 | 9550 | 0.0006 |
818
+ | 3.6488 | 9600 | 0.0073 |
819
+ | 3.6678 | 9650 | 0.0021 |
820
+ | 3.6868 | 9700 | 0.0019 |
821
+ | 3.7058 | 9750 | 0.0013 |
822
+ | 3.7248 | 9800 | 0.0005 |
823
+ | 3.7438 | 9850 | 0.0005 |
824
+ | 3.7628 | 9900 | 0.0011 |
825
+ | 3.7818 | 9950 | 0.0007 |
826
+ | 3.8008 | 10000 | 0.0081 |
827
+ | 3.8198 | 10050 | 0.0017 |
828
+ | 3.8388 | 10100 | 0.0154 |
829
+ | 3.8578 | 10150 | 0.0035 |
830
+ | 3.8769 | 10200 | 0.0023 |
831
+ | 3.8959 | 10250 | 0.0007 |
832
+ | 3.9149 | 10300 | 0.0143 |
833
+ | 3.9339 | 10350 | 0.0005 |
834
+ | 3.9529 | 10400 | 0.0002 |
835
+ | 3.9719 | 10450 | 0.0103 |
836
+ | 3.9909 | 10500 | 0.0019 |
837
+ | 4.0099 | 10550 | 0.0008 |
838
+ | 4.0289 | 10600 | 0.0066 |
839
+ | 4.0479 | 10650 | 0.0002 |
840
+ | 4.0669 | 10700 | 0.0067 |
841
+ | 4.0859 | 10750 | 0.0009 |
842
+ | 4.1049 | 10800 | 0.003 |
843
+ | 4.1239 | 10850 | 0.0001 |
844
+ | 4.1429 | 10900 | 0.0016 |
845
+ | 4.1619 | 10950 | 0.0005 |
846
+ | 4.1809 | 11000 | 0.0249 |
847
+ | 4.1999 | 11050 | 0.0379 |
848
+ | 4.2189 | 11100 | 0.0106 |
849
+ | 4.2379 | 11150 | 0.0015 |
850
+ | 4.2569 | 11200 | 0.0003 |
851
+ | 4.2759 | 11250 | 0.0004 |
852
+ | 4.2949 | 11300 | 0.0026 |
853
+ | 4.3139 | 11350 | 0.0003 |
854
+ | 4.3330 | 11400 | 0.0001 |
855
+ | 4.3520 | 11450 | 0.0002 |
856
+ | 4.3710 | 11500 | 0.0004 |
857
+ | 4.3900 | 11550 | 0.0003 |
858
+ | 4.4090 | 11600 | 0.0042 |
859
+ | 4.4280 | 11650 | 0.0037 |
860
+ | 4.4470 | 11700 | 0.0046 |
861
+ | 4.4660 | 11750 | 0.0013 |
862
+ | 4.4850 | 11800 | 0.0003 |
863
+ | 4.5040 | 11850 | 0.0003 |
864
+ | 4.5230 | 11900 | 0.0019 |
865
+ | 4.5420 | 11950 | 0.0002 |
866
+ | 4.5610 | 12000 | 0.0019 |
867
+ | 4.5800 | 12050 | 0.0003 |
868
+ | 4.5990 | 12100 | 0.0002 |
869
+ | 4.6180 | 12150 | 0.0009 |
870
+ | 4.6370 | 12200 | 0.0007 |
871
+ | 4.6560 | 12250 | 0.0051 |
872
+ | 4.6750 | 12300 | 0.0003 |
873
+ | 4.6940 | 12350 | 0.0031 |
874
+ | 4.7130 | 12400 | 0.0002 |
875
+ | 4.7320 | 12450 | 0.0018 |
876
+ | 4.7510 | 12500 | 0.0003 |
877
+ | 4.7700 | 12550 | 0.0004 |
878
+ | 4.7891 | 12600 | 0.0017 |
879
+ | 4.8081 | 12650 | 0.0042 |
880
+ | 4.8271 | 12700 | 0.0022 |
881
+ | 4.8461 | 12750 | 0.0082 |
882
+ | 4.8651 | 12800 | 0.0017 |
883
+ | 4.8841 | 12850 | 0.0042 |
884
+ | 4.9031 | 12900 | 0.0005 |
885
+ | 4.9221 | 12950 | 0.0002 |
886
+ | 4.9411 | 13000 | 0.0061 |
887
+ | 4.9601 | 13050 | 0.0011 |
888
+ | 4.9791 | 13100 | 0.0003 |
889
+ | 4.9981 | 13150 | 0.0016 |
890
+
891
+ </details>
892
+
893
+ ### Framework Versions
894
+ - Python: 3.10.13
895
+ - Sentence Transformers: 3.0.1
896
+ - Transformers: 4.41.2
897
+ - PyTorch: 2.1.2
898
+ - Accelerate: 0.30.1
899
+ - Datasets: 2.19.2
900
+ - Tokenizers: 0.19.1
901
+
902
+ ## Citation
903
+
904
+ ### BibTeX
905
+
906
+ #### Sentence Transformers
907
+ ```bibtex
908
+ @inproceedings{reimers-2019-sentence-bert,
909
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
910
+ author = "Reimers, Nils and Gurevych, Iryna",
911
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
912
+ month = "11",
913
+ year = "2019",
914
+ publisher = "Association for Computational Linguistics",
915
+ url = "https://arxiv.org/abs/1908.10084",
916
+ }
917
+ ```
918
+
919
+ #### MultipleNegativesRankingLoss
920
+ ```bibtex
921
+ @misc{henderson2017efficient,
922
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
923
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
924
+ year={2017},
925
+ eprint={1705.00652},
926
+ archivePrefix={arXiv},
927
+ primaryClass={cs.CL}
928
+ }
929
+ ```
930
+
931
+ <!--
932
+ ## Glossary
933
+
934
+ *Clearly define terms in order to be accessible across audiences.*
935
+ -->
936
+
937
+ <!--
938
+ ## Model Card Authors
939
+
940
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
941
+ -->
942
+
943
+ <!--
944
+ ## Model Card Contact
945
+
946
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
947
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "comet24082002/finetune_bge_simsce_V1",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 8194,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.41.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.41.2",
5
+ "pytorch": "2.1.2"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:529ad7f54294cd9919151a83d1ce72a03428b287634548a8e7d6b57fc0f13141
3
+ size 2271064456
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d9a6af42442a3e3e9f05f618eae0bb2d98ca4f6a6406cb80ef7a4fa865204d61
3
+ size 17083052
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "max_length": 512,
50
+ "model_max_length": 512,
51
+ "pad_to_multiple_of": null,
52
+ "pad_token": "<pad>",
53
+ "pad_token_type_id": 0,
54
+ "padding_side": "right",
55
+ "sep_token": "</s>",
56
+ "sp_model_kwargs": {},
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizer",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }