對tokenizer增加special tokens使其能被.apply_chat_template正確轉換
#36
by
p208p2002
- opened
作者您好,之前為chatglm3添加chat_template後發現,使用tokenizer.apply_chat_template
轉換成input_ids
時會因為tokenizer
不認識special token
而導致錯誤的轉換結果,因此提出此PR進行修正。
詳細比較與修改請參閱gist:
https://gist.github.com/p208p2002/adf1d4235b9567227d01315beb4b210e
此PR包含 :
- 對
tokenizer
增加四個special token ,使他們能夠被正確轉換。
tokenizer.add_tokens("<|user|>")
tokenizer.add_tokens("<|assistant|>")
tokenizer.add_tokens("[gMASK]")
tokenizer.add_tokens("sop")
- 移除
chat_template
中額外空白
貢獻:
此PR能夠使 chatglm3 的 tokenizer 正確支援 tokenizer.apply_chat_template
方法。
zRzRzRzRzRzRzR
changed pull request status to
merged
"THUDM/chatglm3-6b--"是否是必要的?此修改影响大量离线使用的使用者。
https://huggingface.co/THUDM/chatglm3-6b/discussions/39
"auto_map": {
"AutoTokenizer": [
"THUDM/chatglm3-6b--tokenization_chatglm.ChatGLMTokenizer",
null
]
@jinmingyi 抱歉,我想是我提交PR時沒注意到這邊的設定也被改動到了。我們應該調整回來。