IlyaGusev/saiga_30b_ggml

May 24, 2023

Илья здравствуйте, позвольте спросить Ваше экспертное мнение.
У меня есть грубо говоря порядка миллиона минут распознанного текста переговоров операторов колцентров. Скажите по Вашему мнению, если сделать дата сет из 10 000 или более минут или меньше лучшее взять(что бы избежать перетренерованности), насколько это повлияет на ответы выдаваемы скажем сайгой 7б. Переговоры велись на одну приблизительно тему. Вопросы и ответы симантически сложные

IlyaGusev

Owner May 25, 2023

Добрый вечер.

Да чёрт его знает, не попробовав не могу сказать. Как-то после дообучения 7б модель конечно будет отвечать, но насколько хорошо - прогнозировать сложно.

Viking78SPB

May 25, 2023

Да спасибо большое. У Вас очень хорошая модель получилась по ответам. Успехов Вам в Ваших начинаниях!!!

IlyaGusev changed discussion status to closed May 26, 2023

IlyaGusev
/

saiga_30b_ggml

Data set