Prompt format

#2
by tyfle - opened

Jeg har lastet ned og testet denne, men den genererer ekstremt korte svar (FP16 versjon).

Er dette en "feature" av modellen eller er har det noe med prompt formatet?
Det står ikke noe på model card, bruker denne samme format som vanlig mixtral 8x7/22b-instruct

Jeg har samme problemet med GGUF'ene, de gir ekstremt korte svar og gjentar stort sett bare det jeg gir dem. Har fosøkt å endre på parametre uten større hell.

Skulle også gjerne visst om den bruker samme format som vanilla mistral.

Savner fortsatt helt basic informasjon om hvordan instruksjonstreningen er satt opp. Hvis de har gitt en viss type systemprompt under trening gir dette kanskje mening. Men savner jo også å se hvordan dataene ser ut osv.

NorwAI org
edited Jun 10

Kan bare svare for GGUF-ene, og vil understreke at jeg ikke selv representerer NorwAI (det står i profilen min pga jeg fikk tidlig tilgang til modellene): jeg genererte GGUF med standard-parametre ut fra hoved-modellen (safetensors), og jeg har ikke testet disse spesielt grundig.

Men det er gjort på samme måte som med Nora.LLM-modellene (jeg lagde noen av GGUF-ene der også), så jeg tror ikke det skulle være noe i leddet fra hoved-modell til GGUF som lager problemer. Det er dog en mulighet. Valget om F16-presisjon er fordi safetensors også bruker F16, så burde ikke være noe å hente på å bruke F32 til GGUF når utgangspunktet er F16.

Hvilke GGUF-versjoner bruker dere? Anbefalinger jeg har sett rundtom tilsier at Q4_K_M er et akseptabelt alternativ, og Q5_K_M bedre dersom man får til å kjøre det. Q3 bør man generelt forvente at gjør det ganske dårlig.

Nå har jeg ikke fått tilgang til disse modellene, men på generelt grunnlag vil jeg si at Q4_K_M er min favoritt når jeg kjører lokalt. Det kommer selvfølgelig an på hva du er ute etter; hvis du er ute etter hastighet, går du for Q4, og for kvalitet, Q6.

For øvrig vil instruksjonsoppsettet være likt, enten det er GGUF eller full presisjonsmodell.

Sign up or log in to comment