DiegoGCh commited on
Commit
46a1940
1 Parent(s): 493efb1

Add SetFit model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,280 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: sentence-transformers/all-mpnet-base-v2
3
+ library_name: setfit
4
+ metrics:
5
+ - accuracy
6
+ pipeline_tag: text-classification
7
+ tags:
8
+ - setfit
9
+ - sentence-transformers
10
+ - text-classification
11
+ - generated_from_setfit_trainer
12
+ widget:
13
+ - text: Tono 80 90 la máquina del tiempo Fiesta 80 90 con los videos de la época,
14
+ artistas invitados Leslie Stewart, Renato Rossini una noche de motos en el escenario
15
+ rock & roll wave y más!!! .....Que empiece la juerga, anfitrión Renato Rossini.
16
+ - text: MAÑANA ME CASO Linda y Dave son una pareja de novios que sin saberlo han decidido
17
+ celebrar sus despedidas de soltero en el mismo bar. Mientras que Linda se encuentra
18
+ consumida por la duda y presionada por sus amigas, Dave está derrumbado por la
19
+ borrachera, cuidado por Eddy y sus amigos, quienes también se ven revolucionados
20
+ por la llegada de Peter, que representa todo a lo que ellos aspiran. Una generación
21
+ de jóvenes impulsados por el alcohol y la música, pero ahogados por el trabajo
22
+ y la sociedad, deberán elegir entre hacer lo quieren o seguir cumpliendo con las
23
+ expectativas de una sociedad no muy diferente a la de ahora.
24
+ - text: GALO NO PERÚ El Carnaval es un patrimonio inmortal de la cultura brasileña
25
+ y ahora lo traemos al Perú. “Galo no Perú” es una fiesta inspirada y apoyada por
26
+ el “Galo da Madrugada”, considerado el más grande desfile carnavalesco del mundo
27
+ (según Guinness Book), levando alrededor de 2,5 millones de personas a las calles
28
+ de la ciudad de Recife/Brasil. Luego, un grupo de amigos brasileños que viven
29
+ muchos años en Perú tuvieron la gran idea de replicarlo aquí, en nuestro Perú,
30
+ haciendo una fiesta con mucha música de carnaval de Brasil, además de una fusión
31
+ con las canciones más famosas en Perú, haciendo con que nuestro país también haga
32
+ parte una de las mayores fiestas populares del mundo, el Carnaval de Brasil.
33
+ - text: ESPECIAL DÍA DE LA MUJER – NOCHE DE FOLKLORE Disfrute de todo el encanto de
34
+ las danzas y música peruana en nuestras noches de folklore, todos los viernes
35
+ y sábados en nuestra Asociación Cultural Brisas del Titicaca. Presentamos un mágico
36
+ espectáculo, con danzas de las diferentes regiones de nuestro Perú, acompañado
37
+ de una orquesta show en vivo. Lo mejor del folklore peruano bajo el cielo de Lima.
38
+ - text: La casa de Bernarda Alba - Festival de Teatro de Trujillo Olmo Teatro, en
39
+ el marco del Festival de Teatro de Trujillo organizado por el Teatro Víctor Raúl
40
+ Lozano Ibáñez, presenta “La casa de Bernarda Alba”, obra clásica del teatro español
41
+ escrita por Federico García Lorca.
42
+ inference: true
43
+ model-index:
44
+ - name: SetFit with sentence-transformers/all-mpnet-base-v2
45
+ results:
46
+ - task:
47
+ type: text-classification
48
+ name: Text Classification
49
+ dataset:
50
+ name: Unknown
51
+ type: unknown
52
+ split: test
53
+ metrics:
54
+ - type: accuracy
55
+ value: 0.375
56
+ name: Accuracy
57
+ ---
58
+
59
+ # SetFit with sentence-transformers/all-mpnet-base-v2
60
+
61
+ This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
62
+
63
+ The model has been trained using an efficient few-shot learning technique that involves:
64
+
65
+ 1. Fine-tuning a [Sentence Transformer](https://www.sbert.net) with contrastive learning.
66
+ 2. Training a classification head with features from the fine-tuned Sentence Transformer.
67
+
68
+ ## Model Details
69
+
70
+ ### Model Description
71
+ - **Model Type:** SetFit
72
+ - **Sentence Transformer body:** [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2)
73
+ - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
74
+ - **Maximum Sequence Length:** 384 tokens
75
+ - **Number of Classes:** 11 classes
76
+ <!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
77
+ <!-- - **Language:** Unknown -->
78
+ <!-- - **License:** Unknown -->
79
+
80
+ ### Model Sources
81
+
82
+ - **Repository:** [SetFit on GitHub](https://github.com/huggingface/setfit)
83
+ - **Paper:** [Efficient Few-Shot Learning Without Prompts](https://arxiv.org/abs/2209.11055)
84
+ - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
85
+
86
+ ### Model Labels
87
+ | Label | Examples |
88
+ |:---------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
89
+ | theater | <ul><li>'Cuarentona del amor El amor es una magia, una simple fantasía, es como un sueño… QUE AÚN NO ENCONTREEEEE'</li><li>'"UN CONCIERTO ENTRE CUERDAS” Sumérgete en el fascinante mundo de Mozart, Mendelssohn, Servais y Shostakovich mientras las cuerdas de la OFL nos revelan sus secretos ocultos. Deja que la música te envuelva y experimenta una noche inolvidable cargada de emociones y suspenso ¡No te pierdas esta oportunidad! Reserva tu lugar y descubre los enigmas musicales en "Un concierto entre cuerdas”.'</li><li>'Avenida Q - El Musical "Avenida Q" es un musical protagonizado por títeres y humanos al mejor estilo de los "Muppets" o "Plaza Sésamo". En este exitoso musical de Broadway, Princeton, un recién graduado de la universidad llega a la "Avenida Q", un barrio pobre pero dentro de su presupuesto, para tratar de encontrar la meta en su vida. Ahí conocerá a sus nuevos vecinos. Kate Monstruo, una tierna maestra auxiliar de jardín de infantes, Trekkie Monstruo un adicto al porno, Nicky, un vago, Rod, un banquero que oculta un gran secreto, Brian, un comediante desempleado, Tucurito su prometida y psicóloga y Gary Coleman, una ex estrella de la televisión. \r\nEste musical ácido e irónico toca con mucho humor temas como el racismo, la pornografía, las adicciones, la homosexualidad y la política. \r\n*No recomendable para menores de 14 años*'</li></ul> |
90
+ | party | <ul><li>'Baby on Top Baby on Top en Azotea Doce'</li><li>'Dani R Chill House Aqp Present. Desde Argentina al Dj/producer Dani R, este sabado 10 de febrero nos vemos desde las 9:00 pm para bailar junto a un gran line up recargado, nos vemos en la avenida parra 207- cercado Informes +51944290978'</li><li>'Domingos de Rumba y Sabor Disfruta con nosotros el cierre del fin de semana con la animación de Víctor Ramos - Vicshow y las mezclas en vivo de Dj Tiago. Recuerda que mostrando el QR tienes ingreso hasta las 11:30 pm. No olvides acercarte a la barra para pedir trago de cortesía.'</li></ul> |
91
+ | rock & pop | <ul><li>"GUNS N´ ROSES VS RATA BLANCA, tributo. Un verdadero MANO A MANO, en vivo, una canción interpretada por cada banda, dos backline en escenario: Rata Blanca vs Gun´s Roses \r\n\r\nAsí es, lo que muchos nos pedían, un mano a mano muy esperado, donde las bandas se turnarán para interpretar una canción cada uno y ustedes juzgarán quién fue la mejor de la noche. \r\n\r\nInterpretando a Rata Blanca llegan Vena rock junto a Javo Moscoso. Lo mejor de Guns n´ Roses llegará a cargo de Liestrain - Tributo Guns n' Roses Perú. Además, todo esto con el mejor sonido y luces del Centro de Lima, y GRATIS para las primeras 200 personas en descargar sus pases. ¡Avísale a tus patas!\r\n\r\nViernes 07 Abril - 9:00 pm\r\nYield Rock, Jr. Carabaya 815 Plaza San Martín\r\n Descarga tu pase en #Joinnus hasta el 06 de abril\r\nMismo día en puerta: S/. 20\r\n\r\n#YieldRock #GunsNRoses #RataBlanca"</li></ul> |
92
+ | carlos manucci | <ul><li>'Carlos A. Mannucci vs Club Alianza Lima Venta de entradas: C.A. Mannucci vs Club Alianza Lima por el Torneo Clausura 2022 - Liga 1 Betsson.¡Porque esta la ganamos juntos!'</li></ul> |
93
+ | atletico grau | <ul><li>'Atlético Grau Vs UTC ¡Siempre con el Patrimonio de Piura! \r\n\r\nTodo Piura se une para apoyar a nuestros albos, que necesitan una victoria para escalar en la tabla de posiciones.\r\n\r\nEs ahora que nuestro aliento debe escucharse más que nunca para que nuestro equipo salga a flote.\r\n\r\n¡Vamos Grau, hoy y siempre! '</li></ul> |
94
+ | alianza lima | <ul><li>'ALIANZA LIMA VS CERRO PORTEÑO | COPA LIBERTADORES 2024 ALIANZA LIMA VS CERRO PORTEÑO | COPA LIBERTADORES 2024'</li></ul> |
95
+ | art-culture | <ul><li>'Nutella Party Nutella, la crema italiana de cacao y avellana más famosa del mundo, elaborada por la empresa Ferrero, cumple un aniversario más deleitando a niños y adultos. ¡Ven a degustarla en diversas formas y celebremos juntos su creación!'</li></ul> |
96
+ | food-drinks | <ul><li>'Gochiso Perú 2023 Gochiso Perú 2023'</li></ul> |
97
+ | metal | <ul><li>'DISCHARGE en Lima Discharge, la mítica banda hardcore punk Se presentarán por primera vez en Peru este martes 13 de diciembre en Yield Rock, celebrando los 40 años de su álbum más influyente “Hear Nothing, See Nothing, Say Nothing” (1982).'</li></ul> |
98
+ | kids | <ul><li>'LA CENICIENTA Divertido musical, Cenicienta era una bella joven que vivia con su cruel Madrastra y sus hermanastras \r\nel rey invita a todas las jovenes casaderas a un baile en palacio en donde el principe escogera entre ellas a su futura esposa\r\na Cenicienta no la dejan ir pero aparece su hada madrina y con magia ella ira al baile con un hermoso vestido El principe al verla se enamora de ella luego pasara una serie de situaciones muy jocosas hasta encontrar a la dueña del zapato \r\nHay mucha interacion con los niños participando en el baile'</li></ul> |
99
+ | cinema | <ul><li>'AUTOERÓTICA (PRESENCIAL) Bruna es una adolescente que está explorando su sexualidad. Mediante un programa de citas por internet, empieza una relación que sobrepasará su espíritu adolescente y le hará confrontar la libertad de su cuerpo; ayudándola a reconectarse con su verdadera identidad.'</li></ul> |
100
+
101
+ ## Evaluation
102
+
103
+ ### Metrics
104
+ | Label | Accuracy |
105
+ |:--------|:---------|
106
+ | **all** | 0.375 |
107
+
108
+ ## Uses
109
+
110
+ ### Direct Use for Inference
111
+
112
+ First install the SetFit library:
113
+
114
+ ```bash
115
+ pip install setfit
116
+ ```
117
+
118
+ Then you can load this model and run inference.
119
+
120
+ ```python
121
+ from setfit import SetFitModel
122
+
123
+ # Download from the 🤗 Hub
124
+ model = SetFitModel.from_pretrained("DiegoGCh/setfit-tryv1")
125
+ # Run inference
126
+ preds = model("Tono 80 90 la máquina del tiempo Fiesta 80 90 con los videos de la época, artistas invitados Leslie Stewart, Renato Rossini una noche de motos en el escenario rock & roll wave y más!!! .....Que empiece la juerga, anfitrión Renato Rossini.")
127
+ ```
128
+
129
+ <!--
130
+ ### Downstream Use
131
+
132
+ *List how someone could finetune this model on their own dataset.*
133
+ -->
134
+
135
+ <!--
136
+ ### Out-of-Scope Use
137
+
138
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
139
+ -->
140
+
141
+ <!--
142
+ ## Bias, Risks and Limitations
143
+
144
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
145
+ -->
146
+
147
+ <!--
148
+ ### Recommendations
149
+
150
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
151
+ -->
152
+
153
+ ## Training Details
154
+
155
+ ### Training Set Metrics
156
+ | Training set | Min | Median | Max |
157
+ |:-------------|:----|:--------|:----|
158
+ | Word count | 6 | 56.2632 | 155 |
159
+
160
+ | Label | Training Sample Count |
161
+ |:-----------------|:----------------------|
162
+ | alianza atletico | 0 |
163
+ | alianza lima | 1 |
164
+ | andean | 0 |
165
+ | art-culture | 1 |
166
+ | ayacucho fc | 0 |
167
+ | cinema | 1 |
168
+ | folklore | 0 |
169
+ | futsal | 0 |
170
+ | hip hop | 0 |
171
+ | others | 0 |
172
+ | party | 5 |
173
+ | rock & pop | 1 |
174
+ | sport boys | 0 |
175
+ | sporting cristal | 0 |
176
+ | stand-up | 0 |
177
+ | theater | 5 |
178
+
179
+ ### Training Hyperparameters
180
+ - batch_size: (8, 8)
181
+ - num_epochs: (3, 3)
182
+ - max_steps: -1
183
+ - sampling_strategy: oversampling
184
+ - num_iterations: 20
185
+ - body_learning_rate: (5e-05, 5e-05)
186
+ - head_learning_rate: 5e-05
187
+ - loss: CosineSimilarityLoss
188
+ - distance_metric: cosine_distance
189
+ - margin: 0.25
190
+ - end_to_end: False
191
+ - use_amp: False
192
+ - warmup_proportion: 0.1
193
+ - seed: 42
194
+ - eval_max_steps: -1
195
+ - load_best_model_at_end: False
196
+
197
+ ### Training Results
198
+ | Epoch | Step | Training Loss | Validation Loss |
199
+ |:------:|:----:|:-------------:|:---------------:|
200
+ | 0.004 | 1 | 0.2656 | - |
201
+ | 0.2 | 50 | 0.0891 | - |
202
+ | 0.4 | 100 | 0.062 | - |
203
+ | 0.6 | 150 | 0.0021 | - |
204
+ | 0.8 | 200 | 0.0006 | - |
205
+ | 1.0 | 250 | 0.0003 | - |
206
+ | 1.2 | 300 | 0.0078 | - |
207
+ | 1.4 | 350 | 0.0003 | - |
208
+ | 1.6 | 400 | 0.0001 | - |
209
+ | 1.8 | 450 | 0.0001 | - |
210
+ | 2.0 | 500 | 0.0002 | - |
211
+ | 2.2 | 550 | 0.0001 | - |
212
+ | 2.4 | 600 | 0.0004 | - |
213
+ | 2.6 | 650 | 0.0001 | - |
214
+ | 2.8 | 700 | 0.0 | - |
215
+ | 3.0 | 750 | 0.0003 | - |
216
+ | 0.004 | 1 | 0.3778 | - |
217
+ | 0.2 | 50 | 0.0361 | - |
218
+ | 0.4 | 100 | 0.0069 | - |
219
+ | 0.6 | 150 | 0.0041 | - |
220
+ | 0.8 | 200 | 0.0018 | - |
221
+ | 1.0 | 250 | 0.1319 | - |
222
+ | 1.2 | 300 | 0.0011 | - |
223
+ | 1.4 | 350 | 0.0023 | - |
224
+ | 1.6 | 400 | 0.0011 | - |
225
+ | 1.8 | 450 | 0.0013 | - |
226
+ | 2.0 | 500 | 0.0005 | - |
227
+ | 2.2 | 550 | 0.0002 | - |
228
+ | 2.4 | 600 | 0.0007 | - |
229
+ | 2.6 | 650 | 0.0001 | - |
230
+ | 2.8 | 700 | 0.0001 | - |
231
+ | 3.0 | 750 | 0.0002 | - |
232
+ | 0.0105 | 1 | 0.2121 | - |
233
+ | 0.5263 | 50 | 0.0011 | - |
234
+ | 1.0526 | 100 | 0.0083 | - |
235
+ | 1.5789 | 150 | 0.0005 | - |
236
+ | 2.1053 | 200 | 0.0002 | - |
237
+ | 2.6316 | 250 | 0.0003 | - |
238
+
239
+ ### Framework Versions
240
+ - Python: 3.10.14
241
+ - SetFit: 1.0.3
242
+ - Sentence Transformers: 3.0.1
243
+ - Transformers: 4.39.0
244
+ - PyTorch: 2.3.1+cu121
245
+ - Datasets: 2.21.0
246
+ - Tokenizers: 0.15.2
247
+
248
+ ## Citation
249
+
250
+ ### BibTeX
251
+ ```bibtex
252
+ @article{https://doi.org/10.48550/arxiv.2209.11055,
253
+ doi = {10.48550/ARXIV.2209.11055},
254
+ url = {https://arxiv.org/abs/2209.11055},
255
+ author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
256
+ keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
257
+ title = {Efficient Few-Shot Learning Without Prompts},
258
+ publisher = {arXiv},
259
+ year = {2022},
260
+ copyright = {Creative Commons Attribution 4.0 International}
261
+ }
262
+ ```
263
+
264
+ <!--
265
+ ## Glossary
266
+
267
+ *Clearly define terms in order to be accessible across audiences.*
268
+ -->
269
+
270
+ <!--
271
+ ## Model Card Authors
272
+
273
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
274
+ -->
275
+
276
+ <!--
277
+ ## Model Card Contact
278
+
279
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
280
+ -->
config.json ADDED
@@ -0,0 +1,24 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "sentence-transformers/all-mpnet-base-v2",
3
+ "architectures": [
4
+ "MPNetModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 514,
16
+ "model_type": "mpnet",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 1,
20
+ "relative_attention_num_buckets": 32,
21
+ "torch_dtype": "float32",
22
+ "transformers_version": "4.39.0",
23
+ "vocab_size": 30527
24
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.39.0",
5
+ "pytorch": "2.3.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
config_setfit.json ADDED
@@ -0,0 +1,21 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "labels": [
3
+ "alianza atletico",
4
+ "alianza lima",
5
+ "andean",
6
+ "art-culture",
7
+ "ayacucho fc",
8
+ "cinema",
9
+ "folklore",
10
+ "futsal",
11
+ "hip hop",
12
+ "others",
13
+ "party",
14
+ "rock & pop",
15
+ "sport boys",
16
+ "sporting cristal",
17
+ "stand-up",
18
+ "theater"
19
+ ],
20
+ "normalize_embeddings": false
21
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:62e6ede5a0d3f99c150cadbc68bdb120316abaa44d47d582f69f9d3551bc06c3
3
+ size 437967672
model_head.pkl ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:892980b9ef0899d08bf43648736f6391106558ab0fb4a01c2c368669f380ee4b
3
+ size 69135
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 384,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "[UNK]",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,72 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": true,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "104": {
36
+ "content": "[UNK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "30526": {
44
+ "content": "<mask>",
45
+ "lstrip": true,
46
+ "normalized": false,
47
+ "rstrip": false,
48
+ "single_word": false,
49
+ "special": true
50
+ }
51
+ },
52
+ "bos_token": "<s>",
53
+ "clean_up_tokenization_spaces": true,
54
+ "cls_token": "<s>",
55
+ "do_lower_case": true,
56
+ "eos_token": "</s>",
57
+ "mask_token": "<mask>",
58
+ "max_length": 128,
59
+ "model_max_length": 384,
60
+ "pad_to_multiple_of": null,
61
+ "pad_token": "<pad>",
62
+ "pad_token_type_id": 0,
63
+ "padding_side": "right",
64
+ "sep_token": "</s>",
65
+ "stride": 0,
66
+ "strip_accents": null,
67
+ "tokenize_chinese_chars": true,
68
+ "tokenizer_class": "MPNetTokenizer",
69
+ "truncation_side": "right",
70
+ "truncation_strategy": "longest_first",
71
+ "unk_token": "[UNK]"
72
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff