First commit of the bert-large-japanese model and tokenizer.

Files changed (5) hide show

config.json ADDED Viewed

+{
+    "attention_probs_dropout_prob": 0.1,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 1024,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "max_position_embeddings": 512,
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "type_vocab_size": 2,
+    "vocab_size": 32768
+}

pytorch_model.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:f31f607d5e3220878a6731b958fc235aa502b937b5ede0036801037df3859ec5
+size 1354281605

tf_model.h5 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2458f77c2f17d16c7664f9db840f704baf83c4b312ead0846b362c54df32d1a
+size 1490975032

tokenizer_config.json ADDED Viewed

+{
+    "do_lower_case": false,
+    "word_tokenizer_type": "mecab",
+    "subword_tokenizer_type": "wordpiece",
+    "mecab_kwargs": {
+        "mecab_dic": "unidic_lite"
+    }
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff