patched-chat

Running on Zero

codelion commited on Jun 19

Commit

33012a5

•

1 Parent(s): 196f122

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,6 +7,14 @@ import spaces
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, pipeline
 MAX_MAX_NEW_TOKENS = 1024
 DEFAULT_MAX_NEW_TOKENS = 512
 MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer, pipeline
+import subprocess
+# Install flash attention, skipping CUDA build if necessary
+subprocess.run(
+    "pip install flash-attn --no-build-isolation",
+    env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
+    shell=True,
+)
 MAX_MAX_NEW_TOKENS = 1024
 DEFAULT_MAX_NEW_TOKENS = 512
 MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "4096"))