t5-tiny-nl6-finnish / checkpoint_250000

3 contributors

History: 1 commit

aapot

Add 250k train step and HF flax model

d6e8c72 over 2 years ago

state.param_states.decoder.decoder_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_0.pre_cross_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_0.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_0.pre_self_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_1.pre_cross_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_1.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_1.pre_self_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_2.pre_cross_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_2.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_2.pre_self_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_3.pre_cross_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_3.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_3.pre_self_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_4.pre_cross_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_4.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_4.pre_self_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_5.pre_cross_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_5.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.layers_5.pre_self_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.decoder.relpos_bias.rel_embedding.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.encoder_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_0.pre_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_0.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_1.pre_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_1.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_2.pre_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_2.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_3.pre_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_3.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_4.pre_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_4.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_5.pre_attention_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.layers_5.pre_mlp_layer_norm.scale.v
Add 250k train step and HF flax model over 2 years ago
state.param_states.encoder.relpos_bias.rel_embedding.v
Add 250k train step and HF flax model over 2 years ago
target.decoder.decoder_norm.scale
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.encoder_decoder_attention.key.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.encoder_decoder_attention.out.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.encoder_decoder_attention.query.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.encoder_decoder_attention.value.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.mlp.wi_0.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.mlp.wi_1.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.mlp.wo.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.pre_cross_attention_layer_norm.scale
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.pre_mlp_layer_norm.scale
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.pre_self_attention_layer_norm.scale
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.self_attention.key.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.self_attention.out.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.self_attention.query.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_0.self_attention.value.kernel
Add 250k train step and HF flax model over 2 years ago
target.decoder.layers_1.encoder_decoder_attention.key.kernel
Add 250k train step and HF flax model over 2 years ago