Upload tokenizer

Browse files

Files changed (3) hide show

special_tokens_map.json +7 -111
tokenizer.json +0 -0
tokenizer_config.json +0 -0

special_tokens_map.json CHANGED Viewed

@@ -1,136 +1,32 @@
 {
   "additional_special_tokens": [
-    "<|endoftext|>",
-    "<|startoftranscript|>",
-    "<|en|>",
-    "<|zh|>",
-    "<|de|>",
-    "<|es|>",
-    "<|ru|>",
-    "<|ko|>",
-    "<|fr|>",
-    "<|ja|>",
-    "<|pt|>",
-    "<|tr|>",
-    "<|pl|>",
-    "<|ca|>",
-    "<|nl|>",
-    "<|ar|>",
-    "<|sv|>",
-    "<|it|>",
-    "<|id|>",
-    "<|hi|>",
-    "<|fi|>",
-    "<|vi|>",
-    "<|he|>",
-    "<|uk|>",
-    "<|el|>",
-    "<|ms|>",
-    "<|cs|>",
-    "<|ro|>",
-    "<|da|>",
-    "<|hu|>",
-    "<|ta|>",
-    "<|no|>",
-    "<|th|>",
-    "<|ur|>",
-    "<|hr|>",
-    "<|bg|>",
-    "<|lt|>",
-    "<|la|>",
-    "<|mi|>",
-    "<|ml|>",
-    "<|cy|>",
-    "<|sk|>",
-    "<|te|>",
-    "<|fa|>",
-    "<|lv|>",
-    "<|bn|>",
-    "<|sr|>",
-    "<|az|>",
-    "<|sl|>",
-    "<|kn|>",
-    "<|et|>",
-    "<|mk|>",
-    "<|br|>",
-    "<|eu|>",
-    "<|is|>",
-    "<|hy|>",
-    "<|ne|>",
-    "<|mn|>",
-    "<|bs|>",
-    "<|kk|>",
-    "<|sq|>",
-    "<|sw|>",
-    "<|gl|>",
-    "<|mr|>",
-    "<|pa|>",
-    "<|si|>",
-    "<|km|>",
-    "<|sn|>",
-    "<|yo|>",
-    "<|so|>",
-    "<|af|>",
-    "<|oc|>",
-    "<|ka|>",
-    "<|be|>",
-    "<|tg|>",
-    "<|sd|>",
-    "<|gu|>",
-    "<|am|>",
-    "<|yi|>",
-    "<|lo|>",
-    "<|uz|>",
-    "<|fo|>",
-    "<|ht|>",
-    "<|ps|>",
-    "<|tk|>",
-    "<|nn|>",
-    "<|mt|>",
-    "<|sa|>",
-    "<|lb|>",
-    "<|my|>",
-    "<|bo|>",
-    "<|tl|>",
-    "<|mg|>",
-    "<|as|>",
-    "<|tt|>",
-    "<|haw|>",
-    "<|ln|>",
-    "<|ha|>",
-    "<|ba|>",
-    "<|jw|>",
-    "<|su|>",
-    "<|translate|>",
-    "<|transcribe|>",
-    "<|startoflm|>",
-    "<|startofprev|>",
-    "<|nocaptions|>",
-    "<|notimestamps|>"
   ],
   "bos_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
-    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
   "additional_special_tokens": [
+    "<unk>",
+    "<s>",
+    "</s>"
   ],
   "bos_token": {
+    "content": "<s>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
+    "content": "</s>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "<unk>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
+    "content": "<unk>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff