感谢作者能够分享这么好的一个项目。我想请问一下:对于第一种加载模型文件的方式,这个就相对于是在原chatglm-6b的基础上把训练好的lora权重装载上来。对于第二种加载模型文件的方式,我看所有的加载目录都是该项目目录,这个是加载了什么呢?还有就是RLHF体现在哪里?感谢回答
第一是做lora原来模型权重的merge,可以方便的进行 再量化第二种,未merge,使用peft加载rlhf 主要有两个方面更好地理解输入,更好的推理表达,具体作用需自己对比测。
· Sign up or log in to comment