hugging-quants
/

Meta-Llama-3.1-70B-Instruct-AWQ-INT4

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

alvarobartt HF staff commited on Jul 24

Commit

32958f2

•

1 Parent(s): e4777d6

Update README.md

Files changed (1) hide show

README.md +6 -3

README.md CHANGED Viewed

@@ -165,12 +165,15 @@ Or programatically via the `huggingface_hub` Python client as follows (TGI is fu
 ```python
 import os
-from huggingface_hub import InferenceClient  # Instead of `from openai import OpenAI`
-client = InferenceClient(base_url="http://0.0.0.0:8080/v1", api_key=os.getenv("HF_TOKEN", "-"))  # Instead of `client = OpenAI(base_url=..., api_key=...)
 chat_completion = client.chat.completions.create(
-  model="hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4",  # Instead of `model="tgi"`
   messages=[
     {"role": "system", "content": "You are a helpful assistant."},
     {"role": "user", "content": "What is Deep Learning?"},

 ```python
 import os
+# Instead of `from openai import OpenAI`
+from huggingface_hub import InferenceClient
+# Instead of `client = OpenAI(base_url="http://0.0.0.0:8080/v1", api_key=os.getenv("OPENAI_API_KEY"))`
+client = InferenceClient(base_url="http://0.0.0.0:8080", api_key=os.getenv("HF_TOKEN", "-"))
 chat_completion = client.chat.completions.create(
+  # Instead of `model="tgi"`
+  model="hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4",
   messages=[
     {"role": "system", "content": "You are a helpful assistant."},
     {"role": "user", "content": "What is Deep Learning?"},