CostEvaluator

Running

App Files Files Community

jadehardouin commited on Aug 18, 2023

Commit

0e893b5

•

1 Parent(s): eef299f

Update models.py

Browse files

Files changed (1) hide show

models.py +6 -7

models.py CHANGED Viewed

@@ -131,10 +131,10 @@ class OpenAIModelGPT3_5(BaseTCOModel):
         return cost_per_input_token, cost_per_output_token, labor
-class OpenSourceLlama2Model(BaseTCOModel):
     def __init__(self):
-        self.set_name("(Open source) Llama 2 70B")
         self.set_latency("27s")
         super().__init__()
@@ -144,7 +144,7 @@ class OpenSourceLlama2Model(BaseTCOModel):
             input_tokens_cost_per_token = 0.00052
             r = maxed_out / 100
             return input_tokens_cost_per_token * 0.65 / r, output_tokens_cost_per_token * 0.65/ r
         self.source = gr.Markdown("""<span style="font-size: 16px; font-weight: 600; color: #212529;">Source</span>""")
         self.info = gr.Markdown("The cost per input and output tokens values below are from [these benchmark results](https://www.cursor.so/blog/llama-inference#user-content-fn-llama-paper) that were obtained using the following initial configurations.",
                                  interactive=False,
@@ -176,7 +176,7 @@ class OpenSourceLlama2Model(BaseTCOModel):
                                            )
         self.maxed_out.change(on_maxed_out_change, inputs=[self.maxed_out, self.input_tokens_cost_per_token, self.output_tokens_cost_per_token], outputs=[self.input_tokens_cost_per_token, self.output_tokens_cost_per_token])
-        self.labor = gr.Number(10000, visible=False,
                                 label="($) Labor cost per month",
                                 info="This is an estimate of the labor cost of the AI engineer in charge of deploying the model",
                                 interactive=True
@@ -266,16 +266,15 @@ class ModelPage:
     def compute_cost_per_token(self, *args):
         begin=0
-        current_model = args[-3]
         current_input_tokens = args[-2]
         current_output_tokens = args[-1]
         for model in self.models:
             model_n_args = len(model.get_components_for_cost_computing())
             if current_model == model.get_name():
                 model_args = args[begin:begin+model_n_args]
                 cost_per_input_token, cost_per_output_token, labor_cost = model.compute_cost_per_token(*model_args)
-                model_tco = cost_per_input_token * current_input_tokens + cost_per_output_token * current_output_tokens
                 latency = model.get_latency()
                 return model_tco, latency, labor_cost

         return cost_per_input_token, cost_per_output_token, labor
+class DIYLlama2Model(BaseTCOModel):
     def __init__(self):
+        self.set_name("(Deploy yourself) Llama 2 70B")
         self.set_latency("27s")
         super().__init__()
             input_tokens_cost_per_token = 0.00052
             r = maxed_out / 100
             return input_tokens_cost_per_token * 0.65 / r, output_tokens_cost_per_token * 0.65/ r
         self.source = gr.Markdown("""<span style="font-size: 16px; font-weight: 600; color: #212529;">Source</span>""")
         self.info = gr.Markdown("The cost per input and output tokens values below are from [these benchmark results](https://www.cursor.so/blog/llama-inference#user-content-fn-llama-paper) that were obtained using the following initial configurations.",
                                  interactive=False,
                                            )
         self.maxed_out.change(on_maxed_out_change, inputs=[self.maxed_out, self.input_tokens_cost_per_token, self.output_tokens_cost_per_token], outputs=[self.input_tokens_cost_per_token, self.output_tokens_cost_per_token])
+        self.labor = gr.Number(5000, visible=False,
                                 label="($) Labor cost per month",
                                 info="This is an estimate of the labor cost of the AI engineer in charge of deploying the model",
                                 interactive=True
     def compute_cost_per_token(self, *args):
         begin=0
+        current_model = args[-3]
         current_input_tokens = args[-2]
         current_output_tokens = args[-1]
         for model in self.models:
             model_n_args = len(model.get_components_for_cost_computing())
             if current_model == model.get_name():
                 model_args = args[begin:begin+model_n_args]
                 cost_per_input_token, cost_per_output_token, labor_cost = model.compute_cost_per_token(*model_args)
+                model_tco = cost_per_input_token * current_input_tokens.value + cost_per_output_token * current_output_tokens.value
                 latency = model.get_latency()
                 return model_tco, latency, labor_cost