Text Generation
Transformers
PyTorch
Chinese
English
llama
text-generation-inference

fast tokenizer问题

#3
by JaheimLee - opened

为何官方项目没有use_fast=False的限制?本项目tokenizer有什么变化吗?

本项目tokenizer和官方是一样。
由于baichuan目前没有fast tokenizer实现,因此这里直接设置use_fast=False避免加载错误。

官方有tokenization_baichuan.py, 是不是要同步一下

官方BaiChuanTokenizer和transformers里的LlamaTokenizer代码是完全一样的。
此外,当前llama的fast tokenizer在包含< /s >的文本上的编码存在错误,相关问题可参考https://huggingface.co/openlm-research/open_llama_7b
因此,目前需要设置use_fast=False,以避免AutoTokenizer自动加载fast tokenizer。

好的,感谢

JaheimLee changed discussion status to closed

Sign up or log in to comment