TURKCELL
/

roberta-base-turkish-uncased

Inference Endpoints

Model card Files Files and versions Community

burakaytan commited on Dec 7, 2023

Commit

ffd6166

•

1 Parent(s): 04a2ff4

Update README.md

Files changed (1) hide show

README.md +55 -0

README.md CHANGED Viewed

@@ -1,3 +1,58 @@
 ---
 license: mit
 ---

 ---
 license: mit
+language:
+- tr
 ---
+🇹🇷 RoBERTaTurkish
+## Model description
+This is a Turkish RoBERTa base model pretrained on Turkish Wikipedia, Turkish OSCAR, and some news websites.
+The final training corpus has a size of 38 GB and 329.720.508 sentences.
+As Turkcell, we trained the model on an Intel(R) Xeon(R) Gold 6230R CPU @ 2.10GHz with 256GB RAM and 2 x GV100GL [Tesla V100 PCIe 32GB] GPU for 2.5M steps.
+# Usage
+Load transformers library with:
+```python
+from transformers import AutoTokenizer, AutoModelForMaskedLM
+tokenizer = AutoTokenizer.from_pretrained("burakaytan/roberta-base-turkish-uncased")
+model = AutoModelForMaskedLM.from_pretrained("burakaytan/roberta-base-turkish-uncased")
+```
+# Fill Mask Usage
+```python
+from transformers import pipeline
+fill_mask = pipeline(
+    "fill-mask",
+    model="burakaytan/roberta-base-turkish-uncased",
+    tokenizer="burakaytan/roberta-base-turkish-uncased"
+)
+fill_mask("iki ülke arasında <mask> başladı")
+[{'sequence': 'iki ülke arasında savaş başladı',
+  'score': 0.3013845384120941,
+  'token': 1359,
+  'token_str': ' savaş'},
+ {'sequence': 'iki ülke arasında müzakereler başladı',
+  'score': 0.1058429479598999,
+  'token': 30439,
+  'token_str': ' müzakereler'},
+ {'sequence': 'iki ülke arasında görüşmeler başladı',
+  'score': 0.07718811184167862,
+  'token': 4916,
+  'token_str': ' görüşmeler'},
+ {'sequence': 'iki ülke arasında kriz başladı',
+  'score': 0.07174749672412872,
+  'token': 3908,
+  'token_str': ' kriz'},
+ {'sequence': 'iki ülke arasında çatışmalar başladı',
+  'score': 0.05678590387105942,
+  'token': 19346,
+  'token_str': ' çatışmalar'}]
+```