backbone模型不开源吗?

#4
by JaheimLee - opened

1、如题
2、考虑训练中文版的模型吗,中文领域很久没有新的encoder模型了

Alibaba-NLP org

感谢关注。

  1. 我们原本计划是多语言版本开发完成后,开源中间模型;目前也在内部讨论是否提前开放已有权重。
  2. 之前有训练过中文的base版本,我们会比较多语言模型的开发优先级,争取开源尽可能多的模型。目前确实受资源限制,开发进度较慢,还请谅解。

@izhx 请问支持continual pretraining吗?

Alibaba-NLP org

@izhx 请问支持continual pretraining吗?

@jiahaunluo 您好,我们没有探索过基于finetune的embedding模型继续预训练。不过之前在中文C-MTEB上,有几个模型(比如https://huggingface.co/infgrad/stella-base-zh 是从 piccolo-base-zh 继续训练)是从开源embedding模型训练的,感觉是可行的。

@izhx 请问支持continual pretraining吗?

@jiahaunluo 您好,我们没有探索过基于finetune的embedding模型继续预训练。不过之前在中文C-MTEB上,有几个模型(比如https://huggingface.co/infgrad/stella-base-zh 是从 piccolo-base-zh 继续训练)是从开源embedding模型训练的,感觉是可行的。

非常感谢您的回复。
另外,这个问题有空可以帮忙看看吗?
https://huggingface.co/Alibaba-NLP/new-impl/discussions/3

Alibaba-NLP org

@izhx 请问支持continual pretraining吗?

@jiahaunluo 您好,我们没有探索过基于finetune的embedding模型继续预训练。不过之前在中文C-MTEB上,有几个模型(比如https://huggingface.co/infgrad/stella-base-zh 是从 piccolo-base-zh 继续训练)是从开源embedding模型训练的,感觉是可行的。

非常感谢您的回复。
另外,这个问题有空可以帮忙看看吗?
https://huggingface.co/Alibaba-NLP/new-impl/discussions/3

@jiahaunluo 代码已经更新

@JaheimLee 您好!我想请问一下,backbone模型是指什么呢?

Alibaba-NLP org

@JaheimLee 您好!我想请问一下,backbone模型是指什么呢?

应该指的是 MLM 预训练的模型 @jiahaunluo

@JaheimLee 您好!我想请问一下,backbone模型是指什么呢?

应该指的是 MLM 预训练的模型 @jiahaunluo

感谢回复!另外好像现在的代码开启xformers然后用deepspeed,zero-3,w/o offload训练报错。

Alibaba-NLP org

@JaheimLee 您好!我想请问一下,backbone模型是指什么呢?

应该指的是 MLM 预训练的模型 @jiahaunluo

感谢回复!另外好像现在的代码开启xformers然后用deepspeed,zero-3,w/o offload训练报错。

@jiahaunluo 您试试 zero-2 或者 1。
3要shard模型参数,可能代码有些冲突,写的时候没考虑过小模型用3 🤣,搞完多语言模型我去看一下。

Sign up or log in to comment