为什么加载模型过程中直接出现了显存爆炸的情况?
#4
by
neumyor
- opened
使用24GB的RTX4090加载模型时出现显存溢出,但是这是不可能的,此时通过nvidia-smi查看,无其他显存占用,仅当前进程就申请超过24GB显存,非常不合理,请问有人出现相同情况吗?
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('GanymedeNil/text2vec-large-chinese')
model = BertModel.from_pretrained('GanymedeNil/text2vec-large-chinese').to('cuda:0')
同样遇到了这个问题
是否需要量化压缩下?