模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多
请问下这边使用的时候内存消耗大概多少啊,我也准备用这个模型,想做个参考,感谢
早日来个量化版本
这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。
可以考虑使用GTE-v1.5的 base 和 large 版本,我们也会马上发布多语言的小模型。
模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多 这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。 可以考虑使用GTE-v1.5的 base 和 large 版本,我们也会马上发布多语言的小模型。
不知道后续会不会基于 qwen2 72b 模型进行训练的版本,进一步探索性能的上限?
那量化版本有测试过可不可以使用吗
模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多 这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。 可以考虑使用GTE-v1.5的 base 和 large 版本,我们也会马上发布多语言的小模型。 不知道后续会不会基于 qwen2 72b 模型进行训练的版本,进一步探索性能的上限?
想搞,但显卡数量不太支持 😂
模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多 这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。 可以考虑使用GTE-v1.5的 base 和 large 版本,我们也会马上发布多语言的小模型。 那量化版本有测试过可不可以使用吗
感谢,下周试一下,还没搞过量化。
模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多 这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。 可以考虑使用GTE-v1.5的 base 和 large 版本,我们也会马上发布多语言的小模型。 那量化版本有测试过可不可以使用吗 感谢,下周试一下,还没搞过量化。
我们测试过,包括gte-qwen2-1.5B,在我们的场景中,效果挺惊艳的。但是模型太大,没法实际应用部署。希望能出不同的量化版本,gptq,awq等
· Sign up or log in to comment