Data set
#3
by
Viking78SPB
- opened
Илья здравствуйте, позвольте спросить Ваше экспертное мнение.
У меня есть грубо говоря порядка миллиона минут распознанного текста переговоров операторов колцентров. Скажите по Вашему мнению, если сделать дата сет из 10 000 или более минут или меньше лучшее взять(что бы избежать перетренерованности), насколько это повлияет на ответы выдаваемы скажем сайгой 7б. Переговоры велись на одну приблизительно тему. Вопросы и ответы симантически сложные
Добрый вечер.
Да чёрт его знает, не попробовав не могу сказать. Как-то после дообучения 7б модель конечно будет отвечать, но насколько хорошо - прогнозировать сложно.
Да спасибо большое. У Вас очень хорошая модель получилась по ответам. Успехов Вам в Ваших начинаниях!!!
IlyaGusev
changed discussion status to
closed