사용하신 데이터가 궁금합니다

#1
by yuneun92 - opened

안녕하세요! 빠르게 라마 3를 튜닝해서 올려주셔서 감사합니다 ㅎㅎ 이후 파인튜닝이나 추론에서 좋은 성능을 유지하기 위해, 사용하신 데이터의 양과 형식이 궁금해서 질문 드립니다. 감사합니다

Owner

https://github.com/lcw99/evolve-instruct
squarelike/OpenOrca-gugugo-ko
MarkrAI/KoCommercial-Dataset

세가지를 비슷한 양으로 섞어서 썼습니다. 각 5000*3000 토큰씩 썼네요.

안녕하세요! 최근에 튜닝 관련 공부해보는 중입니다. 위 댓글에서 언급해주신 5000* 3000 토큰의 의미를 알려주실 수 있을까요?

Owner

입력 콘텍스트 길이를 3000 토큰으로 하고 그걸 5000개 사용했다는 뜻입니다.

Sign up or log in to comment