trin_tokenizer_v3 / README.md
naclbit's picture
Update README.md
b5d9bf9
metadata
inference: false
license: mit
language:
  - ja

Description

A Japanese-specialized SentencePiece tokenizer trained for AI Novelist's SuperTrin and Damsel 20B models.

Vocab size: 52000 (padded to 52224)

概要

AIのべりすとの「スーパーとりんさま」「やみおとめ20B」向けに訓練・使用されている、日本語のクリエイティブライティングに特化したSentencePieceトークナイザです。

ボキャブラリサイズ: 52000 (52224にパディング)

Wiki

AIのべりすとユーザーWikiにABC/あいうえお順のトークン一覧が掲載されています。

https://wikiwiki.jp/ainove_wiki/%E3%83%88%E3%83%BC%E3%82%AF%E3%83%B3%E4%B8%80%E8%A6%A7%28%E3%82%84%E3%81%BF%E3%81%8A%E3%81%A8%E3%82%81%29/1

Credits

License

MIT License