backbone模型不开源吗?
1、如题
2、考虑训练中文版的模型吗,中文领域很久没有新的encoder模型了
感谢关注。
- 我们原本计划是多语言版本开发完成后,开源中间模型;目前也在内部讨论是否提前开放已有权重。
- 之前有训练过中文的base版本,我们会比较多语言模型的开发优先级,争取开源尽可能多的模型。目前确实受资源限制,开发进度较慢,还请谅解。
@izhx 请问支持continual pretraining吗?
@izhx 请问支持continual pretraining吗?
@jiahaunluo 您好,我们没有探索过基于finetune的embedding模型继续预训练。不过之前在中文C-MTEB上,有几个模型(比如https://huggingface.co/infgrad/stella-base-zh 是从 piccolo-base-zh 继续训练)是从开源embedding模型训练的,感觉是可行的。
@izhx 请问支持continual pretraining吗?
@jiahaunluo 您好,我们没有探索过基于finetune的embedding模型继续预训练。不过之前在中文C-MTEB上,有几个模型(比如https://huggingface.co/infgrad/stella-base-zh 是从 piccolo-base-zh 继续训练)是从开源embedding模型训练的,感觉是可行的。
非常感谢您的回复。
另外,这个问题有空可以帮忙看看吗?
https://huggingface.co/Alibaba-NLP/new-impl/discussions/3
@izhx 请问支持continual pretraining吗?
@jiahaunluo 您好,我们没有探索过基于finetune的embedding模型继续预训练。不过之前在中文C-MTEB上,有几个模型(比如https://huggingface.co/infgrad/stella-base-zh 是从 piccolo-base-zh 继续训练)是从开源embedding模型训练的,感觉是可行的。
非常感谢您的回复。
另外,这个问题有空可以帮忙看看吗?
https://huggingface.co/Alibaba-NLP/new-impl/discussions/3
@jiahaunluo 代码已经更新
@JaheimLee 您好!我想请问一下,backbone模型是指什么呢?
@JaheimLee 您好!我想请问一下,backbone模型是指什么呢?
应该指的是 MLM 预训练的模型 @jiahaunluo
@JaheimLee 您好!我想请问一下,backbone模型是指什么呢?
应该指的是 MLM 预训练的模型 @jiahaunluo
感谢回复!另外好像现在的代码开启xformers然后用deepspeed,zero-3,w/o offload训练报错。
@JaheimLee 您好!我想请问一下,backbone模型是指什么呢?
应该指的是 MLM 预训练的模型 @jiahaunluo
感谢回复!另外好像现在的代码开启xformers然后用deepspeed,zero-3,w/o offload训练报错。
@jiahaunluo
您试试 zero-2 或者 1。
3要shard模型参数,可能代码有些冲突,写的时候没考虑过小模型用3 🤣,搞完多语言模型我去看一下。