birgermoell commited on Jul 16, 2021

Commit

8f10943

•

0 Parent(s):

Updated models

Browse files

Files changed (20) hide show

.gitattributes +17 -0
README.md +13 -0
config.json +25 -0
evaluate.py +14 -0
events.out.tfevents.1626222578.t1v-n-905ccd3e-w-0.103680.3.v2 +3 -0
events.out.tfevents.1626225112.t1v-n-905ccd3e-w-0.105814.3.v2 +3 -0
events.out.tfevents.1626225189.t1v-n-905ccd3e-w-0.107090.3.v2 +3 -0
events.out.tfevents.1626225342.t1v-n-905ccd3e-w-0.108396.3.v2 +3 -0
events.out.tfevents.1626248489.t1v-n-905ccd3e-w-0.123625.3.v2 +3 -0
events.out.tfevents.1626248655.t1v-n-905ccd3e-w-0.131950.3.v2 +3 -0
events.out.tfevents.1626306539.t1v-n-905ccd3e-w-0.142585.3.v2 +3 -0
flax_model.msgpack +3 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
save_model.py +16 -0
setup_config.py +6 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
vocab.json +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,17 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+language: sv
+license: CC-BY 4.0
+tags:
+- swedish
+- roberta
+pipeline_tag: fill-mask
+widget:
+- text: "Meninged med livet är <mask>."
+---
+# Nordic Roberta Wikipedia
+## Description
+This is a sample reference model for Flax/Jax training using only Wikipedia.

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "RobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.8.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

evaluate.py ADDED Viewed

	@@ -0,0 +1,14 @@

+from transformers import AutoTokenizer, AutoModelForMaskedLM
+from transformers import RobertaTokenizer, RobertaForMaskedLM, pipeline
+import torch
+def pt_evaluate():
+    tokenizer = AutoTokenizer.from_pretrained("flax-community/nordic-roberta-wiki")
+    model = AutoModelForMaskedLM.from_pretrained("flax-community/nordic-roberta-wiki")
+    my_unmasker_pipeline = pipeline('fill-mask', model=model, tokenizer=tokenizer)
+    output = my_unmasker_pipeline("Det är roligt att <mask>")
+    print(output)
+pt_evaluate()

events.out.tfevents.1626222578.t1v-n-905ccd3e-w-0.103680.3.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce13e3deff699d3708c8aa4c58e2a2ff6d0c9e158899a6fd7ec73d516f9b46a1
+size 40

events.out.tfevents.1626225112.t1v-n-905ccd3e-w-0.105814.3.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:448d08b9c3b33ab006a6bf43bc9a72607d4686c7d4b83768c8bc6eed3ca12f91
+size 40

events.out.tfevents.1626225189.t1v-n-905ccd3e-w-0.107090.3.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13c00b57eeb0d7e87b0a5625afbd5a690f951d475ad37e5c01157a740061f852
+size 40

events.out.tfevents.1626225342.t1v-n-905ccd3e-w-0.108396.3.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:917e79027e6d04bf7dfa59015b83bcfe83977e1d8b0e43028c1a5af0a6558456
+size 336461

events.out.tfevents.1626248489.t1v-n-905ccd3e-w-0.123625.3.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6a54b8878b7d5c432d7c82c21ba1b0aee5b6a6cb964ea2658de4a15accd3307
+size 40

events.out.tfevents.1626248655.t1v-n-905ccd3e-w-0.131950.3.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a57d685442e397e189223afceea98fd38013facbffeda690a1729dc105c83320
+size 3817116

events.out.tfevents.1626306539.t1v-n-905ccd3e-w-0.142585.3.v2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb6e08c0302a586b76e4bce62c5cd268b4baef7038a0df4010206abec955372d
+size 44930516

flax_model.msgpack ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:136f2447ead93d2666556ae532ef7fdde053f90d6af53fe163b8fc5a1c53f152
+size 498796983

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b7c64bff19e969f8e9deb9094d52db871b199108d1a4323f46ab301debcbaf4
+size 498661169

save_model.py ADDED Viewed

	@@ -0,0 +1,16 @@

+from transformers.modeling_flax_pytorch_utils import load_flax_checkpoint_in_pytorch_model
+from transformers import RobertaConfig, RobertaModel
+config = RobertaConfig.from_pretrained("./")
+model = RobertaModel(config)
+load_flax_checkpoint_in_pytorch_model(model, "./flax_model.msgpack")
+model.save_pretrained("./")
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("./")
+tokenizer.save_pretrained("./")
+('./tokenizer_config.json',
+ './special_tokens_map.json',
+ './vocab.json',
+ './merges.txt',
+ './added_tokens.json',
+ './tokenizer.json')

setup_config.py ADDED Viewed

	@@ -0,0 +1,6 @@

+from transformers import RobertaConfig
+model_dir = "./swe-roberta-wiki-oscar"  # ${MODEL_DIR}
+config = RobertaConfig.from_pretrained("roberta-base")
+config.save_pretrained(model_dir)

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_prefix_space": false, "errors": "replace", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": "<mask>", "special_tokens_map_file": null, "name_or_path": "./", "tokenizer_class": "RobertaTokenizer"}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff