Spaces:

artificialguybr
/

qwen-14b-chat-demo

Running on A10G

artificialguybr commited on Sep 25, 2023

Commit

81c24b6

•

1 Parent(s): 466a76b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,10 +4,11 @@ import mdtex2html
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from transformers.generation import GenerationConfig
 # Initialize model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-14B-Chat", trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-14B-Chat", device_map="auto", trust_remote_code=True).eval()
 model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-14B-Chat", trust_remote_code=True)
 # Postprocess function

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from transformers.generation import GenerationConfig
+from flash_attn import flash_attn_qkvpacked_func, flash_attn_func
 # Initialize model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-14B-Chat", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-14B-Chat", device_map="auto", trust_remote_code=True, use_flash_attn=True).eval()
 model.generation_config = GenerationConfig.from_pretrained("Qwen/Qwen-14B-Chat", trust_remote_code=True)
 # Postprocess function