--- language: [] library_name: sentence-transformers tags: - sentence-transformers - sentence-similarity - feature-extraction - generated_from_trainer - dataset_size:65699 - loss:MultipleNegativesRankingLoss base_model: gerulata/slovakbert datasets: [] widget: - source_sentence: Mestom Trenčín prechádzajú 2 železničné trate- Trať 120 Bratislava- Žilina a Trať 143 Trenčín- Chynorany. V súčasnosti sa pracuje na modernizácii železničného prieťahu mestom, v roku 2017 bol odovzdaný do užívania nový železničný most, postavená je nová letná plaváreň, keďže stará ustúpila novému mostu. Pre obyvateľov asanovaných domov vystavalo mesto náhradné domy na novovzniknutých uliciach Slivková a Šafránová. Pripravený je tiež projekt rekonštrukcie železničnej stanice Trenčín, ktorá bude realizovaná spolu s rekonštrukciou autobusovej stanice, čím vznikne moderný autobusový terminál s priamym napojením na ŽST. sentences: - V ktorom roku bola založená organizácia Gidonim ? - Koľko železničných tratí prechádza cez mesto Trenčín ? - Koľko rímskych vojakov bojovalo v Trenčíne proti Kvádom ? - source_sentence: Ikonostas pozostáva zo štyroch radov a tvorí ho 102 ikon. Rám ikonostasu pochádza približne z druhej polovice 18. – začiatku 19. storočia. Ikony sa delia na tri skupiny podľa obdobia ich vzniku a štylistických príznakov. Dve najstaršie ikony (Premenenie Pána a Panna Mária Ochrankyňa) pochádzajú z konca 17. storočia a sú typické pre ikonopisectvo severných oblastí. Veľkú časť spodného radu ikonostasu tvorí druhá skupina ikon, ktoré vznikli v druhej polovici 18. storočia. Ikony umiestnené v troch vrchných radoch predstavujú tretiu skupinu. Datujú sa do prvej tretiny 18. storočia. sentences: - Z akého ostrova pochádzajú dve najstaršie ikony Kiži ? - Z akého storočia pochádzajú dve najstaršie ikony Kiži ? - Aký trest dostal Jan Antonín - Baťa ? - source_sentence: 'Začiatok 19.storočia bol poznačený tzv. gerilskými vojnami (špan.guerilla), v ktorých sa obyvatelia spojili s okolitými mestami cádizskej provincie a odolávali francúzskym okupačným vojskám, ktoré obsadili polostrov. Konfiškácia pôdy sa u ľudí taktiež veľmi neosvedčila. Roľníci sa preto snažili vymaniť spod nepriaznivej ekonomickej situácie a pridávali sa k sociálnym hnutiam, ktoré sa v tom čase začali po provincii šíriť. V súčasnosti sa Setenil, po prekonaní emigračných problémov z druhej polovice 20. storočia, aj naďalej rozvíja v tradičných hodnotách. Ťaží najmä z poľnohospodárstva a turizmu. Vyznačuje sa výnimočnou architektúrou, impozantným okolím a jedinečnými sviatkami, čo z neho robí jedno z najatraktívnejších miest provincie Cádiz.' sentences: - Čo dokazujú predmety nájdené v jaskyniach neďaleko obce Setenil de las bodegas ? - Čím sa vyznačuje španielska obec Setenil de las bodegas ? - Ako odovzdávajú prvé kolo matematickej olympiády žiaci SŠ ? - source_sentence: V rokoch 1926-1928 vzrástol export obuvi a firma Baťa ovládala viac ako polovicu československého vývozu. Vo firme došlo k zavedeniu pásovej výroby, ktorá bola používaná v závodoch Henryho Forda. Produktivita práce vzrástla o 75% a počet zamestnancov o 35%, čistý obrat firmy predstavoval 1,9 miliardy predvojnových korún. Koncom roku 1928 tvorila továreň komplex 30 budov, koncern sa ďalej rozrastal a Baťa podnikal v ďalších sférach hospodárstva (gumárenský, chemický, textilný, drevársky priemysel a mnohé ďalšie). Baťa v roku 1931 vyrábal v Zlíne, Otrokoviciach, Třebíči, Bošanoch a Nových Zámkoch. V roku 1931 sa rodinný podnik zmenil na akciovú spoločnosť so základným imaním 135 mil. korún. Už dlho predtým vznikali dcérske spoločnosti po celom svete, k tomu pribúdali továrne v Nemecku, Anglicku, Holandsku, Poľsku a mnohých ďalších krajinách. Vytvoril celý rad výchovných aj vzdelávacích organizácií (Baťova škola práce), v Zlíne vzniklo vlastné filmové štúdio, ktoré sa zaoberalo natáčaním reklám na obuvnícke výrobky. Neskôr sa zo štúdia stali známe Filmové ateliéry Kudlov. sentences: - V ktorých rokoch zastával slovenský matematik Ladislav Fodor funkciu rektora ? - Kam letel Tomáš Baťa v čase svojej nehody ? - V akom ďalšom priemysle podnikal neskôr Baťa ? - source_sentence: Prvý most cez Zlatý roh nechal vybudovať cisár Justinián I. V roku 1502 vypísal sultán Bajazid II. súťaž na stavbu nového mosta, do ktorej sa prihlásili aj Leonardo da Vinci a Michelangelo Buonarroti, ale z realizácie návrhov nakoniec zišlo. V roku 1863 vznikol druhý, drevený most, ktorý v roku 1875 nahradil železný most, postavený francúzskymi staviteľmi. Štvrtý most postavili Nemci v roku 1912 a slúžil až do roku 1992, kedy bol zničený požiarom. Bolo rozhodnuté o stavbe mosta súčasného, ktorý vybudovala domáca firma STFA Group. sentences: - V ktorom roku vznikol druhý drevený most cez záliv Zlatý roh ? - Kde sa Alexios spolu s dvomi staršími bratmi zamestnal po abdikácii Izáka I. a smrti svojho otca ? - Aká je priemerná dĺžka života v Eritrei ? pipeline_tag: sentence-similarity --- # SentenceTransformer based on gerulata/slovakbert ### Model Sources - **Repository:** [Model Training and Evaluation Scripts ](https://github.com/hladek/slovak-retrieval) ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [gerulata/slovakbert](https://huggingface.co/gerulata/slovakbert) - **Maximum Sequence Length:** 300 tokens - **Output Dimensionality:** 768 tokens - **Similarity Function:** Cosine Similarity ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 300, 'do_lower_case': False}) with Transformer model: RobertaModel (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("sentence_transformers_model_id") # Run inference sentences = [ 'Prvý most cez Zlatý roh nechal vybudovať cisár Justinián I. V roku 1502 vypísal sultán Bajazid II. súťaž na stavbu nového mosta, do ktorej sa prihlásili aj Leonardo da Vinci a Michelangelo Buonarroti, ale z realizácie návrhov nakoniec zišlo. V roku 1863 vznikol druhý, drevený most, ktorý v roku 1875 nahradil železný most, postavený francúzskymi staviteľmi. Štvrtý most postavili Nemci v roku 1912 a slúžil až do roku 1992, kedy bol zničený požiarom. Bolo rozhodnuté o stavbe mosta súčasného, ktorý vybudovala domáca firma STFA Group.', 'V ktorom roku vznikol druhý drevený most cez záliv Zlatý roh ?', 'Aká je priemerná dĺžka života v Eritrei ?', ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 768] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] ``` ## Training Details ### Training Dataset #### Unnamed Dataset * Size: 65,699 training samples * Columns: sentence_0, sentence_1, and sentence_2 * Approximate statistics based on the first 1000 samples: | | sentence_0 | sentence_1 | sentence_2 | |:--------|:------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------| | type | string | string | string | | details | | | | * Samples: | sentence_0 | sentence_1 | sentence_2 | |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------| | Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný. | V ktorom roku bol rímskokatolícky misionár Jozef Filus vysvätený za kňaza ? | V ktorom roku nebol rímskokatolícky misionár Jozef Filus vysvätený za kňaza ? | | Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný. | Kam emigroval rímskokatolícky misionár Jozef Filus v roku 1951 ? | Kam emigroval rímskokatolícky misionár Jozef Filus v roku 2001 ? | | Gymnázium a neskôr filozofiu študoval v Nitre. V roku 1951 ilegálne emigroval cez Rakúsko do Nemecka, kde v St. Augustine skončil teologické štúdiá. V roku 1952 bol vysvätený za kňaza a následný rok odchádza ako misionár do mesta Bello Horizonte v Brazílii. Páter Jozef Filus pôsobil v tejto krajine celých 46 rokov. Tu sa učil po portugalsky, dejiny a kultúru krajiny. Neskôr pôsobil v mestách Tres Rios a Rio de Janeiro, Santa Casa, Juiz Fora, Vale Jequitiuhonha a Gama. Ešte aj vo svojich 75 rokoch pôsobil vo veľkej nemocnici v Bello Horizonte. V tomto meste je aj pochovaný. | Kde študoval rímskokatolícky misionár Jozef Filus filozofiu ? | Kde študoval rímskokatolícky misionár Jozef Filus medicínu ? | * Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim" } ``` ### Training Hyperparameters #### Non-Default Hyperparameters - `per_device_train_batch_size`: 16 - `per_device_eval_batch_size`: 16 - `num_train_epochs`: 1 - `fp16`: True - `multi_dataset_batch_sampler`: round_robin #### All Hyperparameters
Click to expand - `overwrite_output_dir`: False - `do_predict`: False - `eval_strategy`: no - `prediction_loss_only`: True - `per_device_train_batch_size`: 16 - `per_device_eval_batch_size`: 16 - `per_gpu_train_batch_size`: None - `per_gpu_eval_batch_size`: None - `gradient_accumulation_steps`: 1 - `eval_accumulation_steps`: None - `learning_rate`: 5e-05 - `weight_decay`: 0.0 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `max_grad_norm`: 1 - `num_train_epochs`: 1 - `max_steps`: -1 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: {} - `warmup_ratio`: 0.0 - `warmup_steps`: 0 - `log_level`: passive - `log_level_replica`: warning - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `save_safetensors`: True - `save_on_each_node`: False - `save_only_model`: False - `restore_callback_states_from_checkpoint`: False - `no_cuda`: False - `use_cpu`: False - `use_mps_device`: False - `seed`: 42 - `data_seed`: None - `jit_mode_eval`: False - `use_ipex`: False - `bf16`: False - `fp16`: True - `fp16_opt_level`: O1 - `half_precision_backend`: auto - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `local_rank`: 0 - `ddp_backend`: None - `tpu_num_cores`: None - `tpu_metrics_debug`: False - `debug`: [] - `dataloader_drop_last`: False - `dataloader_num_workers`: 0 - `dataloader_prefetch_factor`: 2 - `past_index`: -1 - `disable_tqdm`: False - `remove_unused_columns`: True - `label_names`: None - `load_best_model_at_end`: False - `ignore_data_skip`: False - `fsdp`: [] - `fsdp_min_num_params`: 0 - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `fsdp_transformer_layer_cls_to_wrap`: None - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `deepspeed`: None - `label_smoothing_factor`: 0.0 - `optim`: adamw_torch - `optim_args`: None - `adafactor`: False - `group_by_length`: False - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `skip_memory_metrics`: True - `use_legacy_prediction_loop`: False - `push_to_hub`: False - `resume_from_checkpoint`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_private_repo`: False - `hub_always_push`: False - `gradient_checkpointing`: False - `gradient_checkpointing_kwargs`: None - `include_inputs_for_metrics`: False - `eval_do_concat_batches`: True - `fp16_backend`: auto - `push_to_hub_model_id`: None - `push_to_hub_organization`: None - `mp_parameters`: - `auto_find_batch_size`: False - `full_determinism`: False - `torchdynamo`: None - `ray_scope`: last - `ddp_timeout`: 1800 - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `dispatch_batches`: None - `split_batches`: None - `include_tokens_per_second`: False - `include_num_input_tokens_seen`: False - `neftune_noise_alpha`: None - `optim_target_modules`: None - `batch_eval_metrics`: False - `batch_sampler`: batch_sampler - `multi_dataset_batch_sampler`: round_robin
### Training Logs | Epoch | Step | Training Loss | |:------:|:----:|:-------------:| | 0.1217 | 500 | 0.7764 | | 0.2435 | 1000 | 0.4429 | | 0.3652 | 1500 | 0.3971 | | 0.4870 | 2000 | 0.375 | | 0.6087 | 2500 | 0.3427 | | 0.7305 | 3000 | 0.3246 | | 0.8522 | 3500 | 0.3173 | | 0.9739 | 4000 | 0.3101 | ### Framework Versions - Python: 3.10.8 - Sentence Transformers: 3.0.1 - Transformers: 4.41.2 - PyTorch: 1.13.1 - Accelerate: 0.31.0 - Datasets: 2.19.1 - Tokenizers: 0.19.1 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ``` #### MultipleNegativesRankingLoss ```bibtex @misc{henderson2017efficient, title={Efficient Natural Language Response Suggestion for Smart Reply}, author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil}, year={2017}, eprint={1705.00652}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```