Update README.md
Browse files
README.md
CHANGED
@@ -99,7 +99,7 @@ De keuze voor deze mix is gebaseerd op zowel beschikbaarheid van data als de vol
|
|
99 |
de vertalingen of generaties van een slechte kwaliteit zijn. Daarom is gekozen voor datasets waarvan de brondata
|
100 |
pre ChatGPT tijdperk zijn, (dus voor November 2022).
|
101 |
* mc4_nl_cleaned - de bron van deze dataset is mC4 - deduplicated data van Common
|
102 |
-
Crawl, en gefiltered op bad-words en andere bewerkingen volgens het recept van de T5 auteurs voor de Engelse C4 dataset. In diverse
|
103 |
* Er is geen sourcecode in gemixt - ik verwacht niet dat een 7B model ooit code kan genereren dat bruikbaar is.
|
104 |
Misschien helpt het bij logisch redeneer-puzzels, maar ook daarvoor verwacht ik dat een 7B model dit nooit zo goed
|
105 |
zal kunnen of generaliseren als grotere modellen.
|
|
|
99 |
de vertalingen of generaties van een slechte kwaliteit zijn. Daarom is gekozen voor datasets waarvan de brondata
|
100 |
pre ChatGPT tijdperk zijn, (dus voor November 2022).
|
101 |
* mc4_nl_cleaned - de bron van deze dataset is mC4 - deduplicated data van Common
|
102 |
+
Crawl, en gefiltered op bad-words en andere bewerkingen volgens het recept van de T5 auteurs voor de Engelse C4 dataset. In diverse vergelijkingen blijkt C4 een goede pre-train dataset, daarom is mc4_nl_cleaned ook voor dit model gebruikt.
|
103 |
* Er is geen sourcecode in gemixt - ik verwacht niet dat een 7B model ooit code kan genereren dat bruikbaar is.
|
104 |
Misschien helpt het bij logisch redeneer-puzzels, maar ook daarvoor verwacht ik dat een 7B model dit nooit zo goed
|
105 |
zal kunnen of generaliseren als grotere modellen.
|