Text Generation
Russian
conversational

Data set

#3
by Viking78SPB - opened

Илья здравствуйте, позвольте спросить Ваше экспертное мнение.
У меня есть грубо говоря порядка миллиона минут распознанного текста переговоров операторов колцентров. Скажите по Вашему мнению, если сделать дата сет из 10 000 или более минут или меньше лучшее взять(что бы избежать перетренерованности), насколько это повлияет на ответы выдаваемы скажем сайгой 7б. Переговоры велись на одну приблизительно тему. Вопросы и ответы симантически сложные

Добрый вечер.

Да чёрт его знает, не попробовав не могу сказать. Как-то после дообучения 7б модель конечно будет отвечать, но насколько хорошо - прогнозировать сложно.

Да спасибо большое. У Вас очень хорошая модель получилась по ответам. Успехов Вам в Ваших начинаниях!!!

IlyaGusev changed discussion status to closed

Sign up or log in to comment