Sabiá 7B - GGUF

Criador do Modelo: Maritaca AI
Modelo Original: Sabiá 7B
Artigo: Sabiá: Portuguese Large Language Models
Licença: É a mesma do modelo LLaMA-1's, restrigindo o uso do modelo apenas para fins de pesquisa acadêmica.

Os modelos Sabiá foram otimizados com language modeling objective, mas não foram treinados para seguir instruções (instruction tuning). Ou seja, eles não são chatbots. Eles funcionam bem em tarefas few-shot: você passa exemplos de entrada e saída, seguidos por um novo exemplo de entrada, daí o modelo gera o texto complementar (a resposta).

Arquivos Incluídos

Nome	Método Quant	Bits	Tamanho	Desc
sabia7b-q4_0.gguf	q4_0	4	3.83 GB	Quantização em 4-bit.
sabia7b-q4_1.gguf	q4_1	4	4.24 GB	Quantização em 4-bit. Acurácia maior que q4_0 mas não tão boa quanto q5_0. Inferência mais rápida que os modelos q5.
sabia7b-q5_0.gguf	q5_0	5	4.65 GB	Quantização em 5-bit. Melhor acurácia, maior uso de recursos, inferência mais lenta.
sabia7b-q5_1.gguf	q5_1	5	5.06 GB	Quantização em 5-bit. Ainda Melhor acurácia, maior uso de recursos, inferência mais lenta.
sabia7b-q8_0.gguf	q8_0	8	7.16 GB	Quantização em 8-bit. Quase indistinguível do float16. Usa muitos recursos e é mais lento.

Observação: os valores de RAM acima não pressupõem descarregamento de GPU. Se as camadas forem descarregadas para a GPU, isso reduzirá o uso de RAM e usará VRAM.

Como executar com `llama.cpp`

Usei o seguinte comando. Para melhores resultados forneça exemplos de resultados esperados. Exemplo:

Classifique a string abaixo em uma ou mais das seguintes classes: A, B, C ou D.

String: <string 1>

Classes: B, D

String: <string 2>

Classes:

./main -m ./models/sabia-7b/sabia7b-q5_1.gguf --color --temp 0.5 -n 256 -p "### Instrução: {comando} ### Resposta:"

Para compreender os parâmetros, veja a documentação do llama.cpp

Experimente gratuitamente no Google Colab:

Sobre o formato GGUF

GGUF é um novo formato introduzido pela equipe llama.cpp em 21 de agosto de 2023. É um substituto para o GGML, que não é mais suportado pelo llama.cpp.

O principal benefício do GGUF é que ele é um formato extensível e à prova de futuro que armazena mais informações sobre o modelo como metadados. Ele também inclui código de tokenização significativamente melhorado, incluindo pela primeira vez suporte total para tokens especiais. Isso deve melhorar o desempenho, especialmente com modelos que usam novos tokens especiais e implementam modelos de prompt personalizados.

Aqui está uma lista de clientes e bibliotecas que são conhecidos por suportar GGUF:

llama.cpp.
ollama - servidor com interfaces REST e CLI
text-generation-webui, a interface web mais amplamente utilizada. Suporta GGUF com aceleração GPU via backend ctransformers - backend llama-cpp-python deve funcionar em breve também.
KoboldCpp, agora suporta GGUF a partir da versão 1.41! Uma poderosa interface web GGML, com aceleração total da GPU. Especialmente bom para contar histórias.
LM Studio, versão 0.2.2 e posteriores suportam GGUF. Uma GUI local totalmente equipada com aceleração GPU em ambos Windows (NVidia e AMD) e macOS.
LoLLMS Web UI, agora deve funcionar, escolha o backend c_transformers. Uma ótima interface web com muitos recursos interessantes. Suporta aceleração GPU CUDA.
ctransformers, agora suporta GGUF a partir da versão 0.2.24! Uma biblioteca Python com aceleração GPU, suporte LangChain e servidor AI compatível com OpenAI.
llama-cpp-python, suporta GGUF a partir da versão 0.1.79. Uma biblioteca Python com aceleração GPU, suporte LangChain e servidor API compatível com OpenAI.
candle, adicionou suporte GGUF em 22 de agosto. Candle é um framework ML Rust com foco em desempenho, incluindo suporte GPU e facilidade de uso.
LocalAI, adicionou suporte GGUF em 23 de agosto. LocalAI provê uma API Rest para modelos LLM e de geração de imagens.

Template

### Instrução:
{prompt}

### Resposta:

lucianosb
/

sabia-7b-GGUF

Sabiá 7B - GGUF

Arquivos Incluídos

Como executar com `llama.cpp`

Sobre o formato GGUF

Template

Collection including lucianosb/sabia-7b-GGUF

Quantizations

Sabiá 7B - GGUF

Arquivos Incluídos

Como executar com llama.cpp

Sobre o formato GGUF

Template

Collection including lucianosb/sabia-7b-GGUF

Como executar com `llama.cpp`