initial release

Browse files

Files changed (8) hide show

README.md +44 -0
config.json +363 -0
pytorch_model.bin +3 -0
special_tokens_map.json +9 -0
supar.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +16 -0
vocab.txt +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,44 @@

+---
+language:
+- "ko"
+tags:
+- "korean"
+- "token-classification"
+- "pos"
+- "dependency-parsing"
+datasets:
+- "universal_dependencies"
+license: "cc-by-sa-4.0"
+pipeline_tag: "token-classification"
+widget:
+- text: "홍시 맛이 나서 홍시라 생각한다."
+---
+# roberta-large-korean-upos
+## Model Description
+This is a RoBERTa model for POS-tagging and dependency-parsing, derived from [klue/roberta-large](https://huggingface.co/klue/roberta-large).
+## How to Use
+```py
+from transformers import AutoTokenizer,AutoModelForTokenClassification,TokenClassificationPipeline
+tokenizer=AutoTokenizer.from_pretrained("KoichiYasuoka/roberta-large-korean-upos")
+model=AutoModelForTokenClassification.from_pretrained("KoichiYasuoka/roberta-large-korean-upos")
+pipeline=TokenClassificationPipeline(tokenizer=tokenizer,model=model,aggregation_strategy="simple")
+nlp=lambda x:[(x[t["start"]:t["end"]],t["entity_group"]) for t in pipeline(x)]
+print(nlp("홍시 맛이 나서 홍시라 생각한다."))
+```
+or
+```py
+import esupar
+nlp=esupar.load("KoichiYasuoka/roberta-large-korean-upos")
+print(nlp("홍시 맛이 나서 홍시라 생각한다."))
+```
+## See Also
+[esupar](https://github.com/KoichiYasuoka/esupar): Tokenizer POS-tagger and Dependency-parser with BERT/RoBERTa/DeBERTa models

config.json ADDED Viewed

	@@ -0,0 +1,363 @@

+{
+  "architectures": [
+    "RobertaForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "ADJ",
+    "1": "ADJ+ADJ",
+    "2": "ADJ+NOUN",
+    "3": "ADJ+VERB",
+    "4": "ADP",
+    "5": "ADP+PRON",
+    "6": "ADV",
+    "7": "ADV+ADJ",
+    "8": "ADV+CCONJ",
+    "9": "ADV+NOUN",
+    "10": "ADV+PROPN",
+    "11": "ADV+SCONJ",
+    "12": "ADV+VERB",
+    "13": "AUX",
+    "14": "AUX+NOUN",
+    "15": "B-ADJ",
+    "16": "B-ADP",
+    "17": "B-ADV",
+    "18": "B-AUX",
+    "19": "B-CCONJ",
+    "20": "B-DET",
+    "21": "B-INTJ",
+    "22": "B-NOUN",
+    "23": "B-NUM",
+    "24": "B-NUM+PUNCT+NUM",
+    "25": "B-PART",
+    "26": "B-PRON",
+    "27": "B-PROPN",
+    "28": "B-PUNCT",
+    "29": "B-SCONJ",
+    "30": "B-SYM",
+    "31": "B-VERB",
+    "32": "B-X",
+    "33": "CCONJ",
+    "34": "DET",
+    "35": "DET+NOUN",
+    "36": "I-ADJ",
+    "37": "I-ADP",
+    "38": "I-ADV",
+    "39": "I-AUX",
+    "40": "I-CCONJ",
+    "41": "I-DET",
+    "42": "I-INTJ",
+    "43": "I-NOUN",
+    "44": "I-NUM",
+    "45": "I-NUM+PUNCT+NUM",
+    "46": "I-PART",
+    "47": "I-PRON",
+    "48": "I-PROPN",
+    "49": "I-PUNCT",
+    "50": "I-SCONJ",
+    "51": "I-SYM",
+    "52": "I-VERB",
+    "53": "I-X",
+    "54": "INTJ",
+    "55": "NOUN",
+    "56": "NOUN+ADJ",
+    "57": "NOUN+ADV",
+    "58": "NOUN+CCONJ",
+    "59": "NOUN+NOUN",
+    "60": "NOUN+SCONJ",
+    "61": "NOUN+VERB",
+    "62": "NUM",
+    "63": "PART",
+    "64": "PRON",
+    "65": "PRON+ADV",
+    "66": "PRON+CCONJ",
+    "67": "PROPN",
+    "68": "PROPN+PROPN",
+    "69": "PROPN+VERB",
+    "70": "PUNCT",
+    "71": "SCONJ",
+    "72": "SCONJ+NOUN",
+    "73": "SCONJ+PROPN",
+    "74": "SCONJ+SCONJ",
+    "75": "SYM",
+    "76": "VERB",
+    "77": "VERB+ADV",
+    "78": "VERB+NOUN",
+    "79": "VERB+PROPN",
+    "80": "X"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "ADJ": 0,
+    "ADJ+ADJ": 1,
+    "ADJ+NOUN": 2,
+    "ADJ+VERB": 3,
+    "ADP": 4,
+    "ADP+PRON": 5,
+    "ADV": 6,
+    "ADV+ADJ": 7,
+    "ADV+CCONJ": 8,
+    "ADV+NOUN": 9,
+    "ADV+PROPN": 10,
+    "ADV+SCONJ": 11,
+    "ADV+VERB": 12,
+    "AUX": 13,
+    "AUX+NOUN": 14,
+    "B-ADJ": 15,
+    "B-ADP": 16,
+    "B-ADV": 17,
+    "B-AUX": 18,
+    "B-CCONJ": 19,
+    "B-DET": 20,
+    "B-INTJ": 21,
+    "B-NOUN": 22,
+    "B-NUM": 23,
+    "B-NUM+PUNCT+NUM": 24,
+    "B-PART": 25,
+    "B-PRON": 26,
+    "B-PROPN": 27,
+    "B-PUNCT": 28,
+    "B-SCONJ": 29,
+    "B-SYM": 30,
+    "B-VERB": 31,
+    "B-X": 32,
+    "CCONJ": 33,
+    "DET": 34,
+    "DET+NOUN": 35,
+    "I-ADJ": 36,
+    "I-ADP": 37,
+    "I-ADV": 38,
+    "I-AUX": 39,
+    "I-CCONJ": 40,
+    "I-DET": 41,
+    "I-INTJ": 42,
+    "I-NOUN": 43,
+    "I-NUM": 44,
+    "I-NUM+PUNCT+NUM": 45,
+    "I-PART": 46,
+    "I-PRON": 47,
+    "I-PROPN": 48,
+    "I-PUNCT": 49,
+    "I-SCONJ": 50,
+    "I-SYM": 51,
+    "I-VERB": 52,
+    "I-X": 53,
+    "INTJ": 54,
+    "NOUN": 55,
+    "NOUN+ADJ": 56,
+    "NOUN+ADV": 57,
+    "NOUN+CCONJ": 58,
+    "NOUN+NOUN": 59,
+    "NOUN+SCONJ": 60,
+    "NOUN+VERB": 61,
+    "NUM": 62,
+    "PART": 63,
+    "PRON": 64,
+    "PRON+ADV": 65,
+    "PRON+CCONJ": 66,
+    "PROPN": 67,
+    "PROPN+PROPN": 68,
+    "PROPN+VERB": 69,
+    "PUNCT": 70,
+    "SCONJ": 71,
+    "SCONJ+NOUN": 72,
+    "SCONJ+PROPN": 73,
+    "SCONJ+SCONJ": 74,
+    "SYM": 75,
+    "VERB": 76,
+    "VERB+ADV": 77,
+    "VERB+NOUN": 78,
+    "VERB+PROPN": 79,
+    "X": 80
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "task_specific_params": {
+    "upos_multiword": {
+      "ADJ+ADJ": {
+        "\uc5c6\ub294\uc5f7\uc740": [
+          "\uc5c6\ub294",
+          "\uc5f7\uc740"
+        ]
+      },
+      "ADJ+VERB": {
+        "\uc544\ub2cc\ud2a4\ub9bd\uc774\ub780": [
+          "\uc544\ub2cc",
+          "\ud2a4\ub9bd\uc774\ub780"
+        ]
+      },
+      "ADP+PRON": {
+        "\uac00\uc167\ub2e4\uc6b4\uc81c\uac00": [
+          "\uac00",
+          "\uc167\ub2e4\uc6b4\uc81c\uac00"
+        ]
+      },
+      "ADV+CCONJ": {
+        "\uc11c\uc11c\ud788\uc5f7\uc5b4\uc9c0\uace0": [
+          "\uc11c\uc11c\ud788",
+          "\uc5f7\uc5b4\uc9c0\uace0"
+        ]
+      },
+      "ADV+PROPN": {
+        "\uc18d\uc5d0\ubeec\ub808\uc2a4\ud2b8\ub85c\uc774\uce74\uac00": [
+          "\uc18d\uc5d0",
+          "\ubeec\ub808\uc2a4\ud2b8\ub85c\uc774\uce74\uac00"
+        ]
+      },
+      "ADV+SCONJ": {
+        "\ub0c7\ubb3c\uc5d0\ud5f9\uad6c\uc5b4\uc11c": [
+          "\ub0c7\ubb3c\uc5d0",
+          "\ud5f9\uad6c\uc5b4\uc11c"
+        ],
+        "\uc815\ub3c4\ub85c\ucad1\uc54c\uac70\ub9ac\uace0\ub294": [
+          "\uc815\ub3c4\ub85c",
+          "\ucad1\uc54c\uac70\ub9ac\uace0\ub294"
+        ]
+      },
+      "ADV+VERB": {
+        "\uc55e\uc5d0\uc11c\uca54\uca54\ub9f8\ub2e4": [
+          "\uc55e\uc5d0\uc11c",
+          "\uca54\uca54\ub9f8\ub2e4"
+        ]
+      },
+      "NOUN+ADV": {
+        "\ub0a0\ud03c\ub978\ubc29\uc1a1\uad6d\ub3c4": [
+          "\ub0a0",
+          "\ud03c\ub978\ubc29\uc1a1\uad6d\ub3c4"
+        ]
+      },
+      "NOUN+CCONJ": {
+        "\uc815\uce58\ud615\ud0dc\ub97c\ucd9c\ud604\uc2dc\ucf2f\uace0": [
+          "\uc815\uce58\ud615\ud0dc\ub97c",
+          "\ucd9c\ud604\uc2dc\ucf2f\uace0"
+        ]
+      },
+      "NOUN+NOUN": {
+        "\uad70\uc911\uc774\ud288\ub974\ub9ac": [
+          "\uad70\uc911\uc774",
+          "\ud288\ub974\ub9ac"
+        ],
+        "\ud558\ub8e8\ud488\uc0af\uc774": [
+          "\ud558\ub8e8",
+          "\ud488\uc0af\uc774"
+        ]
+      },
+      "NOUN+SCONJ": {
+        "\ud615\ud0dc\ub97c\ub768\uc9c0\ub77c\ub3c4": [
+          "\ud615\ud0dc\ub97c",
+          "\ub768\uc9c0\ub77c\ub3c4"
+        ]
+      },
+      "NOUN+VERB": {
+        "\ub048\uc744\ub9ec": [
+          "\ub048\uc744",
+          "\ub9ec"
+        ],
+        "\ud480\ubc2d\uc5d0\uc11c\ub294\ube73\ube73\ud55c": [
+          "\ud480\ubc2d\uc5d0\uc11c\ub294",
+          "\ube73\ube73\ud55c"
+        ],
+        "\ud669\uae08\uc744\uac70\uba38\uc958": [
+          "\ud669\uae08\uc744",
+          "\uac70\uba38\uc958"
+        ]
+      },
+      "NUM+PUNCT+NUM": {
+        "5157\uc5b5": [
+          "5",
+          "15",
+          "7\uc5b5"
+        ]
+      },
+      "PRON+ADV": {
+        "\uadf8\ub4e4\uc740\uaf3c\ubba8\uc5d0\uc11c": [
+          "\uadf8\ub4e4\uc740",
+          "\uaf3c\ubba8\uc5d0\uc11c"
+        ]
+      },
+      "PRON+CCONJ": {
+        "\uadf8\ub294\ud06c\ub808\ubbc8\ub9b0\uacfc": [
+          "\uadf8\ub294",
+          "\ud06c\ub808\ubbc8\ub9b0\uacfc"
+        ]
+      },
+      "PROPN+PROPN": {
+        "\ubfcc\uce58\uac00\ubeec\ub808\uc2a4\ud2b8\ub85c\uc774\uce74\uc758": [
+          "\ubfcc\uce58\uac00",
+          "\ubeec\ub808\uc2a4\ud2b8\ub85c\uc774\uce74\uc758"
+        ]
+      },
+      "PROPN+VERB": {
+        "\uc0bc\uc131\uc804\uc790\uac00\uc774\ub055\ub2c8\ub2e4": [
+          "\uc0bc\uc131\uc804\uc790\uac00",
+          "\uc774\ub055\ub2c8\ub2e4"
+        ]
+      },
+      "SCONJ+NOUN": {
+        "\uc788\uac8c\ud154\ub808\ube44\uc83c\uc740": [
+          "\uc788\uac8c",
+          "\ud154\ub808\ube44\uc83c\uc740"
+        ]
+      },
+      "SCONJ+PROPN": {
+        "\uc81c\uc678\ud55c\ub2e4\uba74\uaf3c\ubba8\uc81c\ub3c4\ub294": [
+          "\uc81c\uc678\ud55c\ub2e4\uba74",
+          "\uaf3c\ubba8\uc81c\ub3c4\ub294"
+        ]
+      },
+      "VERB+ADV": {
+        "\uad00\ud55c\ud5d9\ubc95\uc815\uc2e0\uc5d0": [
+          "\uad00\ud55c",
+          "\ud5d9\ubc95\uc815\uc2e0\uc5d0"
+        ]
+      },
+      "VERB+NOUN": {
+        "\ub450\uc5b4\uc84c\uace0\ud64b\uce74\uc774\ub3c4": [
+          "\ub450\uc5b4\uc84c\uace0",
+          "\ud64b\uce74\uc774\ub3c4"
+        ],
+        "\ub9db\uc788\uace0\ucf00\uc78c\ub3c4": [
+          "\ub9db\uc788\uace0",
+          "\ucf00\uc78c\ub3c4"
+        ],
+        "\uc5f0\ud569\uccb4\uc778\uacbd\uc81c\uaf3c\ubba8": [
+          "\uc5f0\ud569\uccb4\uc778",
+          "\uacbd\uc81c\uaf3c\ubba8"
+        ]
+      },
+      "VERB+PROPN": {
+        "\ub290\ub080\ubd10\uc3ed\uc740": [
+          "\ub290\ub080",
+          "\ubd10\uc3ed\uc740"
+        ],
+        "\uba38\ubb38\uc138\uac9c\uc740": [
+          "\uba38\ubb38",
+          "\uc138\uac9c\uc740"
+        ],
+        "\uc2e4\uba85\ud558\uac8c\ub41c\ubabd\ub5bc\uc2a4\ub028\ub294": [
+          "\uc2e4\uba85\ud558\uac8c\ub41c",
+          "\ubabd\ub5bc\uc2a4\ub028\ub294"
+        ]
+      }
+    }
+  },
+  "tokenizer_class": "BertTokenizerFast",
+  "torch_dtype": "float32",
+  "transformers_version": "4.22.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27bdc0d1693c020ef429c024312507112e375241c256029ae32551344eb8dbc2
+size 1342895793

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

supar.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0ac3914f1d7eff573f44ce139349649bbb0b3f29af4d84cb4bc298e94e520a4
+size 1407899365

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizerFast",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff