Add TF weights

#1
by amyeroberts HF staff - opened

Model converted by the transformers' pt_to_tf CLI. All converted model outputs and hidden layers were validated against its Pytorch counterpart.

Maximum crossload output difference=4.165e-03; Maximum crossload hidden layer difference=3.168e-02;
Maximum conversion output difference=4.165e-03; Maximum conversion hidden layer difference=3.168e-02;

CAUTION: The maximum admissible error was manually increased to 0.04!

List of maximum output differences above the threshold (1e-10):
past_key_values[0][0]: 2.623e-06
past_key_values[0][1]: 8.941e-07
past_key_values[0][2]: 2.179e-03
past_key_values[0][3]: 1.130e-03
past_key_values[1][0]: 1.669e-06
past_key_values[1][1]: 9.537e-07
past_key_values[1][2]: 2.409e-03
past_key_values[1][3]: 7.693e-04
past_key_values[2][0]: 2.146e-06
past_key_values[2][1]: 1.550e-06
past_key_values[2][2]: 1.973e-03
past_key_values[2][3]: 9.549e-04
past_key_values[3][0]: 3.219e-06
past_key_values[3][1]: 8.345e-07
past_key_values[3][2]: 2.615e-03
past_key_values[3][3]: 8.058e-04
past_key_values[4][0]: 2.384e-06
past_key_values[4][1]: 4.917e-07
past_key_values[4][2]: 1.629e-03
past_key_values[4][3]: 8.176e-04
past_key_values[5][0]: 2.503e-06
past_key_values[5][1]: 5.960e-07
past_key_values[5][2]: 1.483e-03
past_key_values[5][3]: 1.101e-03
past_key_values[6][0]: 2.742e-06
past_key_values[6][1]: 4.768e-07
past_key_values[6][2]: 2.268e-03
past_key_values[6][3]: 2.505e-03
past_key_values[7][0]: 2.623e-06
past_key_values[7][1]: 1.132e-06
past_key_values[7][2]: 2.347e-03
past_key_values[7][3]: 1.062e-03
past_key_values[8][0]: 2.861e-06
past_key_values[8][1]: 5.104e-07
past_key_values[8][2]: 2.256e-03
past_key_values[8][3]: 1.009e-03
past_key_values[9][0]: 3.576e-06
past_key_values[9][1]: 4.768e-07
past_key_values[9][2]: 2.066e-03
past_key_values[9][3]: 9.308e-04
past_key_values[10][0]: 2.861e-06
past_key_values[10][1]: 4.470e-07
past_key_values[10][2]: 2.665e-03
past_key_values[10][3]: 1.780e-03
past_key_values[11][0]: 3.338e-06
past_key_values[11][1]: 6.557e-07
past_key_values[11][2]: 2.196e-03
past_key_values[11][3]: 1.137e-03
past_key_values[12][0]: 4.292e-06
past_key_values[12][1]: 7.153e-07
past_key_values[12][2]: 2.375e-03
past_key_values[12][3]: 7.998e-04
past_key_values[13][0]: 2.623e-06
past_key_values[13][1]: 6.557e-07
past_key_values[13][2]: 2.357e-03
past_key_values[13][3]: 9.997e-04
past_key_values[14][0]: 2.623e-06
past_key_values[14][1]: 7.227e-07
past_key_values[14][2]: 1.872e-03
past_key_values[14][3]: 1.227e-03
past_key_values[15][0]: 3.099e-06
past_key_values[15][1]: 1.490e-06
past_key_values[15][2]: 3.132e-03
past_key_values[15][3]: 1.602e-03
past_key_values[16][0]: 3.099e-06
past_key_values[16][1]: 9.537e-07
past_key_values[16][2]: 2.367e-03
past_key_values[16][3]: 8.916e-04
past_key_values[17][0]: 2.384e-06
past_key_values[17][1]: 8.345e-07
past_key_values[17][2]: 2.754e-03
past_key_values[17][3]: 1.677e-03
past_key_values[18][0]: 2.742e-06
past_key_values[18][1]: 7.153e-07
past_key_values[18][2]: 2.150e-03
past_key_values[18][3]: 1.141e-03
past_key_values[19][0]: 2.146e-06
past_key_values[19][1]: 8.345e-07
past_key_values[19][2]: 1.931e-03
past_key_values[19][3]: 2.152e-03
past_key_values[20][0]: 2.503e-06
past_key_values[20][1]: 1.192e-06
past_key_values[20][2]: 2.285e-03
past_key_values[20][3]: 3.219e-03
past_key_values[21][0]: 2.503e-06
past_key_values[21][1]: 1.192e-06
past_key_values[21][2]: 1.654e-03
past_key_values[21][3]: 2.698e-03
past_key_values[22][0]: 1.907e-06
past_key_values[22][1]: 1.431e-06
past_key_values[22][2]: 1.796e-03
past_key_values[22][3]: 2.171e-03
past_key_values[23][0]: 3.338e-06
past_key_values[23][1]: 1.907e-06
past_key_values[23][2]: 2.698e-03
past_key_values[23][3]: 2.292e-03

List of maximum hidden layer differences above the threshold (1e-10):
last_hidden_state: 3.433e-05
decoder_hidden_states[1]: 7.629e-06
decoder_hidden_states[2]: 8.106e-06
decoder_hidden_states[3]: 9.537e-06
decoder_hidden_states[4]: 1.404e-03
decoder_hidden_states[5]: 1.404e-03
decoder_hidden_states[6]: 1.404e-03
decoder_hidden_states[7]: 1.404e-03
decoder_hidden_states[8]: 1.404e-03
decoder_hidden_states[9]: 1.404e-03
decoder_hidden_states[10]: 1.343e-03
decoder_hidden_states[11]: 1.343e-03
decoder_hidden_states[12]: 1.343e-03
decoder_hidden_states[13]: 1.343e-03
decoder_hidden_states[14]: 1.343e-03
decoder_hidden_states[15]: 1.343e-03
decoder_hidden_states[16]: 1.343e-03
decoder_hidden_states[17]: 1.343e-03
decoder_hidden_states[18]: 1.343e-03
decoder_hidden_states[19]: 1.343e-03
decoder_hidden_states[20]: 1.343e-03
decoder_hidden_states[21]: 1.343e-03
decoder_hidden_states[22]: 1.343e-03
decoder_hidden_states[23]: 1.343e-03
decoder_hidden_states[24]: 3.433e-05
encoder_last_hidden_state: 6.832e-03
encoder_hidden_states[0]: 1.240e-05
encoder_hidden_states[1]: 1.478e-05
encoder_hidden_states[2]: 1.407e-05
encoder_hidden_states[3]: 1.812e-05
encoder_hidden_states[4]: 3.338e-05
encoder_hidden_states[5]: 4.745e-05
encoder_hidden_states[6]: 6.127e-05
encoder_hidden_states[7]: 1.249e-04
encoder_hidden_states[8]: 2.512e-02
encoder_hidden_states[9]: 2.512e-02
encoder_hidden_states[10]: 2.515e-02
encoder_hidden_states[11]: 2.518e-02
encoder_hidden_states[12]: 2.518e-02
encoder_hidden_states[13]: 2.518e-02
encoder_hidden_states[14]: 2.518e-02
encoder_hidden_states[15]: 2.518e-02
encoder_hidden_states[16]: 2.518e-02
encoder_hidden_states[17]: 2.518e-02
encoder_hidden_states[18]: 2.518e-02
encoder_hidden_states[19]: 2.518e-02
encoder_hidden_states[20]: 2.518e-02
encoder_hidden_states[21]: 2.518e-02
encoder_hidden_states[22]: 2.518e-02
encoder_hidden_states[23]: 2.521e-02
encoder_hidden_states[24]: 6.832e-03

amyeroberts changed pull request status to merged

Sign up or log in to comment