IlyaGusev commited on
Commit
822f645
1 Parent(s): ac535a0

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +14 -3
app.py CHANGED
@@ -26,6 +26,15 @@ from llama_cpp import Llama
26
 
27
 
28
  SYSTEM_PROMPT = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
 
 
 
 
 
 
 
 
 
29
 
30
  LOADER_MAPPING = {
31
  ".csv": (CSVLoader, {}),
@@ -85,9 +94,11 @@ def load_single_document(file_path: str) -> Document:
85
 
86
 
87
  def get_message_tokens(model, role, content):
88
- content = f"{role}\n{content}\n</s>"
89
- content = content.encode("utf-8")
90
- return model.tokenize(content, special=True)
 
 
91
 
92
 
93
  def get_system_tokens(model):
 
26
 
27
 
28
  SYSTEM_PROMPT = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."
29
+ SYSTEM_TOKEN = 1788
30
+ USER_TOKEN = 1404
31
+ BOT_TOKEN = 9225
32
+ LINEBREAK_TOKEN = 13
33
+ ROLE_TOKENS = {
34
+ "user": USER_TOKEN,
35
+ "bot": BOT_TOKEN,
36
+ "system": SYSTEM_TOKEN
37
+ }
38
 
39
  LOADER_MAPPING = {
40
  ".csv": (CSVLoader, {}),
 
94
 
95
 
96
  def get_message_tokens(model, role, content):
97
+ message_tokens = model.tokenize(content.encode("utf-8"))
98
+ message_tokens.insert(1, ROLE_TOKENS[role])
99
+ message_tokens.insert(2, LINEBREAK_TOKEN)
100
+ message_tokens.append(model.token_eos())
101
+ return message_tokens
102
 
103
 
104
  def get_system_tokens(model):