| 06/22/2024 06:28:00 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1distributed training: True, 16-bits training: False |
| {'loss': 0.7453, 'grad_norm': 70.44538879394531, 'learning_rate': 2.7046081134304843e-05, 'epoch': 0.2} |
| {'eval_exact_match': 87.36666666666666, 'eval_f1': 90.2462371136489, 'epoch': 0.2} |
| {'loss': 0.4863, 'grad_norm': 74.7574234008789, 'learning_rate': 2.409216226860969e-05, 'epoch': 0.39} |
| {'eval_exact_match': 88.76666666666667, 'eval_f1': 90.95727956254274, 'epoch': 0.39} |
| {'loss': 0.413, 'grad_norm': 11.323880195617676, 'learning_rate': 2.1138243402914533e-05, 'epoch': 0.59} |
| {'eval_exact_match': 90.46666666666667, 'eval_f1': 92.3909417989418, 'epoch': 0.59} |
| {'loss': 0.3762, 'grad_norm': 57.2664680480957, 'learning_rate': 1.8184324537219378e-05, 'epoch': 0.79} |
| {'eval_exact_match': 90.76666666666667, 'eval_f1': 92.51397306397307, 'epoch': 0.79} |
| {'loss': 0.3563, 'grad_norm': 39.49021911621094, 'learning_rate': 1.5230405671524222e-05, 'epoch': 0.98} |
| {'eval_exact_match': 91.66666666666667, 'eval_f1': 93.64239682539686, 'epoch': 0.98} |
| {'loss': 0.1942, 'grad_norm': 174.0330047607422, 'learning_rate': 1.2276486805829067e-05, 'epoch': 1.18} |
| {'eval_exact_match': 91.6, 'eval_f1': 93.43199108883323, 'epoch': 1.18} |
| {'loss': 0.1709, 'grad_norm': 0.0160669032484293, 'learning_rate': 9.322567940133912e-06, 'epoch': 1.38} |
| {'eval_exact_match': 92.8, 'eval_f1': 94.44685185185187, 'epoch': 1.38} |
| {'loss': 0.1839, 'grad_norm': 212.05442810058594, 'learning_rate': 6.368649074438756e-06, 'epoch': 1.58} |
| {'eval_exact_match': 93.06666666666666, 'eval_f1': 94.5925444925445, 'epoch': 1.58} |
| {'loss': 0.1156, 'grad_norm': 0.17131257057189941, 'learning_rate': 3.4147302087436e-06, 'epoch': 1.77} |
| {'eval_exact_match': 93.06666666666666, 'eval_f1': 94.59888888888891, 'epoch': 1.77} |
| {'loss': 0.1359, 'grad_norm': 0.042494483292102814, 'learning_rate': 4.608113430484443e-07, 'epoch': 1.97} |
| {'eval_exact_match': 93.36666666666666, 'eval_f1': 94.88777777777779, 'epoch': 1.97} |
| {'train_runtime': 5394.4597, 'train_samples_per_second': 7.529, 'train_steps_per_second': 0.941, 'train_loss': 0.31565969917144115, 'epoch': 2.0} |
| ***** train metrics ***** |
| epoch = 2.0 |
| total_flos = 835355GF |
| train_loss = 0.3157 |
| train_runtime = 1:29:54.45 |
| train_samples = 20308 |
| train_samples_per_second = 7.529 |
| train_steps_per_second = 0.941 |
| ***** eval metrics ***** |
| epoch = 2.0 |
| eval_exact_match = 93.3667 |
| eval_f1 = 94.8878 |
| eval_samples = 3018 |
|
|