metadata

language:
  - ja
license: apache-2.0
library_name: transformers
datasets:
  - llm-book/ner-wikipedia-dataset
pipeline_tag: token-classification
metrics:
  - seqeval
  - precision
  - recall
  - f1

llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset

「大規模言語モデル入門」の第6章で紹介している固有表現認識のモデルです。 cl-tohoku/bert-base-japanese-v3の出力層にCRF層を組み合わせたモデルをllm-book/ner-wikipedia-datasetでファインチューニングして構築されています。

使い方

from transformers import pipeline
from pprint import pprint

ner_pipeline = pipeline(
    model="llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset",
    aggregation_strategy="simple",
)
text = "大谷翔平は岩手県水沢市出身のプロ野球選手"
# text中の固有表現を抽出
pprint(ner_pipeline(text))
[{'end': None,
  'entity_group': '人名',
  'score': 0.7792025,
  'start': None,
  'word': '大谷 翔平'},
 {'end': None,
  'entity_group': '地名',
  'score': 0.9150581,
  'start': None,
  'word': '岩手 県 水沢 市'}]

ライセンス

Apache License 2.0

llm-book
/

bert-base-japanese-v3-crf-ner-wikipedia-dataset

llm-book/bert-base-japanese-v3-crf-ner-wikipedia-dataset

関連リンク

使い方

ライセンス