{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 0.3651538862806468, "eval_steps": 500, "global_step": 700, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0005216484089723526, "grad_norm": 3.6680614948272705, "learning_rate": 0.0, "loss": 0.541, "step": 1 }, { "epoch": 0.0010432968179447052, "grad_norm": 1.7092307806015015, "learning_rate": 5e-06, "loss": 0.2639, "step": 2 }, { "epoch": 0.001564945226917058, "grad_norm": 1.990319013595581, "learning_rate": 1e-05, "loss": 0.3118, "step": 3 }, { "epoch": 0.0020865936358894104, "grad_norm": 3.750917434692383, "learning_rate": 1.5e-05, "loss": 0.4562, "step": 4 }, { "epoch": 0.0026082420448617634, "grad_norm": 4.690845966339111, "learning_rate": 2e-05, "loss": 0.673, "step": 5 }, { "epoch": 0.003129890453834116, "grad_norm": 1.4218288660049438, "learning_rate": 2.5e-05, "loss": 0.2984, "step": 6 }, { "epoch": 0.0036515388628064684, "grad_norm": 4.896511077880859, "learning_rate": 3e-05, "loss": 0.7113, "step": 7 }, { "epoch": 0.004173187271778821, "grad_norm": 2.5787155628204346, "learning_rate": 3.5000000000000004e-05, "loss": 0.4226, "step": 8 }, { "epoch": 0.004694835680751174, "grad_norm": 1.028937578201294, "learning_rate": 4e-05, "loss": 0.1873, "step": 9 }, { "epoch": 0.005216484089723527, "grad_norm": 3.9262092113494873, "learning_rate": 4.4999999999999996e-05, "loss": 0.5728, "step": 10 }, { "epoch": 0.005738132498695879, "grad_norm": 4.9360198974609375, "learning_rate": 5e-05, "loss": 0.725, "step": 11 }, { "epoch": 0.006259780907668232, "grad_norm": 4.287437915802002, "learning_rate": 5.5e-05, "loss": 0.6361, "step": 12 }, { "epoch": 0.006781429316640584, "grad_norm": 1.3290928602218628, "learning_rate": 6e-05, "loss": 0.3109, "step": 13 }, { "epoch": 0.007303077725612937, "grad_norm": 2.0050501823425293, "learning_rate": 6.500000000000001e-05, "loss": 0.4099, "step": 14 }, { "epoch": 0.00782472613458529, "grad_norm": 4.360481262207031, "learning_rate": 7.000000000000001e-05, "loss": 0.6363, "step": 15 }, { "epoch": 0.008346374543557642, "grad_norm": 3.9680511951446533, "learning_rate": 7.5e-05, "loss": 0.6124, "step": 16 }, { "epoch": 0.008868022952529996, "grad_norm": 1.701784610748291, "learning_rate": 8e-05, "loss": 0.3439, "step": 17 }, { "epoch": 0.009389671361502348, "grad_norm": 4.544748783111572, "learning_rate": 8.5e-05, "loss": 0.6253, "step": 18 }, { "epoch": 0.0099113197704747, "grad_norm": 4.58634090423584, "learning_rate": 8.999999999999999e-05, "loss": 0.7669, "step": 19 }, { "epoch": 0.010432968179447054, "grad_norm": 2.89898419380188, "learning_rate": 9.5e-05, "loss": 0.512, "step": 20 }, { "epoch": 0.010954616588419406, "grad_norm": 2.61112904548645, "learning_rate": 0.0001, "loss": 0.542, "step": 21 }, { "epoch": 0.011476264997391758, "grad_norm": 3.217054843902588, "learning_rate": 0.000105, "loss": 0.4959, "step": 22 }, { "epoch": 0.011997913406364111, "grad_norm": 2.569636821746826, "learning_rate": 0.00011, "loss": 0.3918, "step": 23 }, { "epoch": 0.012519561815336464, "grad_norm": 1.4626373052597046, "learning_rate": 0.000115, "loss": 0.3316, "step": 24 }, { "epoch": 0.013041210224308816, "grad_norm": 1.2480732202529907, "learning_rate": 0.00012, "loss": 0.3484, "step": 25 }, { "epoch": 0.013562858633281168, "grad_norm": 2.5430543422698975, "learning_rate": 0.000125, "loss": 0.4699, "step": 26 }, { "epoch": 0.014084507042253521, "grad_norm": 1.7051862478256226, "learning_rate": 0.00013000000000000002, "loss": 0.2139, "step": 27 }, { "epoch": 0.014606155451225874, "grad_norm": 1.1670981645584106, "learning_rate": 0.000135, "loss": 0.3883, "step": 28 }, { "epoch": 0.015127803860198226, "grad_norm": 1.336538314819336, "learning_rate": 0.00014000000000000001, "loss": 0.3714, "step": 29 }, { "epoch": 0.01564945226917058, "grad_norm": 2.018078565597534, "learning_rate": 0.000145, "loss": 0.2301, "step": 30 }, { "epoch": 0.01617110067814293, "grad_norm": 1.5743223428726196, "learning_rate": 0.00015, "loss": 0.2935, "step": 31 }, { "epoch": 0.016692749087115284, "grad_norm": 1.2724987268447876, "learning_rate": 0.000155, "loss": 0.3141, "step": 32 }, { "epoch": 0.017214397496087636, "grad_norm": 2.2347893714904785, "learning_rate": 0.00016, "loss": 0.2917, "step": 33 }, { "epoch": 0.01773604590505999, "grad_norm": 1.6726069450378418, "learning_rate": 0.000165, "loss": 0.377, "step": 34 }, { "epoch": 0.018257694314032343, "grad_norm": 1.2217071056365967, "learning_rate": 0.00017, "loss": 0.3027, "step": 35 }, { "epoch": 0.018779342723004695, "grad_norm": 1.3436322212219238, "learning_rate": 0.000175, "loss": 0.2853, "step": 36 }, { "epoch": 0.019300991131977047, "grad_norm": 1.2247120141983032, "learning_rate": 0.00017999999999999998, "loss": 0.2967, "step": 37 }, { "epoch": 0.0198226395409494, "grad_norm": 1.0636978149414062, "learning_rate": 0.000185, "loss": 0.2745, "step": 38 }, { "epoch": 0.02034428794992175, "grad_norm": 1.302099347114563, "learning_rate": 0.00019, "loss": 0.2688, "step": 39 }, { "epoch": 0.020865936358894107, "grad_norm": 1.0052679777145386, "learning_rate": 0.00019500000000000002, "loss": 0.2539, "step": 40 }, { "epoch": 0.02138758476786646, "grad_norm": 1.0164084434509277, "learning_rate": 0.0002, "loss": 0.1978, "step": 41 }, { "epoch": 0.02190923317683881, "grad_norm": 1.3891016244888306, "learning_rate": 0.000205, "loss": 0.3189, "step": 42 }, { "epoch": 0.022430881585811163, "grad_norm": 0.960986852645874, "learning_rate": 0.00021, "loss": 0.2321, "step": 43 }, { "epoch": 0.022952529994783515, "grad_norm": 0.9918408393859863, "learning_rate": 0.000215, "loss": 0.2359, "step": 44 }, { "epoch": 0.023474178403755867, "grad_norm": 1.190205693244934, "learning_rate": 0.00022, "loss": 0.2347, "step": 45 }, { "epoch": 0.023995826812728223, "grad_norm": 0.7985232472419739, "learning_rate": 0.00022500000000000002, "loss": 0.2048, "step": 46 }, { "epoch": 0.024517475221700575, "grad_norm": 0.5192842483520508, "learning_rate": 0.00023, "loss": 0.1116, "step": 47 }, { "epoch": 0.025039123630672927, "grad_norm": 1.1033375263214111, "learning_rate": 0.000235, "loss": 0.2665, "step": 48 }, { "epoch": 0.02556077203964528, "grad_norm": 0.7089418172836304, "learning_rate": 0.00024, "loss": 0.1639, "step": 49 }, { "epoch": 0.02608242044861763, "grad_norm": 1.08647882938385, "learning_rate": 0.000245, "loss": 0.2072, "step": 50 }, { "epoch": 0.026604068857589983, "grad_norm": 0.9901174902915955, "learning_rate": 0.00025, "loss": 0.2035, "step": 51 }, { "epoch": 0.027125717266562335, "grad_norm": 0.6938351988792419, "learning_rate": 0.000255, "loss": 0.1851, "step": 52 }, { "epoch": 0.02764736567553469, "grad_norm": 0.8392678499221802, "learning_rate": 0.00026000000000000003, "loss": 0.1918, "step": 53 }, { "epoch": 0.028169014084507043, "grad_norm": 0.5979602932929993, "learning_rate": 0.00026500000000000004, "loss": 0.1243, "step": 54 }, { "epoch": 0.028690662493479395, "grad_norm": 0.7119799852371216, "learning_rate": 0.00027, "loss": 0.1594, "step": 55 }, { "epoch": 0.029212310902451747, "grad_norm": 0.5519995093345642, "learning_rate": 0.000275, "loss": 0.078, "step": 56 }, { "epoch": 0.0297339593114241, "grad_norm": 0.5917723774909973, "learning_rate": 0.00028000000000000003, "loss": 0.134, "step": 57 }, { "epoch": 0.03025560772039645, "grad_norm": 0.6265603303909302, "learning_rate": 0.000285, "loss": 0.1848, "step": 58 }, { "epoch": 0.030777256129368807, "grad_norm": 1.0653454065322876, "learning_rate": 0.00029, "loss": 0.1831, "step": 59 }, { "epoch": 0.03129890453834116, "grad_norm": 0.3466293513774872, "learning_rate": 0.000295, "loss": 0.0878, "step": 60 }, { "epoch": 0.03182055294731351, "grad_norm": 0.5498062372207642, "learning_rate": 0.0003, "loss": 0.1733, "step": 61 }, { "epoch": 0.03234220135628586, "grad_norm": 0.7708966135978699, "learning_rate": 0.000305, "loss": 0.1975, "step": 62 }, { "epoch": 0.03286384976525822, "grad_norm": 0.7717278003692627, "learning_rate": 0.00031, "loss": 0.1863, "step": 63 }, { "epoch": 0.03338549817423057, "grad_norm": 0.8076028823852539, "learning_rate": 0.000315, "loss": 0.1938, "step": 64 }, { "epoch": 0.03390714658320292, "grad_norm": 0.5629755258560181, "learning_rate": 0.00032, "loss": 0.1471, "step": 65 }, { "epoch": 0.03442879499217527, "grad_norm": 0.5237282514572144, "learning_rate": 0.00032500000000000004, "loss": 0.1244, "step": 66 }, { "epoch": 0.03495044340114763, "grad_norm": 0.7248942852020264, "learning_rate": 0.00033, "loss": 0.1933, "step": 67 }, { "epoch": 0.03547209181011998, "grad_norm": 0.49564772844314575, "learning_rate": 0.000335, "loss": 0.1389, "step": 68 }, { "epoch": 0.03599374021909233, "grad_norm": 0.4806594252586365, "learning_rate": 0.00034, "loss": 0.1295, "step": 69 }, { "epoch": 0.036515388628064686, "grad_norm": 0.39995619654655457, "learning_rate": 0.000345, "loss": 0.1324, "step": 70 }, { "epoch": 0.037037037037037035, "grad_norm": 0.6496027708053589, "learning_rate": 0.00035, "loss": 0.1002, "step": 71 }, { "epoch": 0.03755868544600939, "grad_norm": 0.5661569237709045, "learning_rate": 0.000355, "loss": 0.1277, "step": 72 }, { "epoch": 0.03808033385498174, "grad_norm": 0.49875250458717346, "learning_rate": 0.00035999999999999997, "loss": 0.1322, "step": 73 }, { "epoch": 0.038601982263954095, "grad_norm": 0.44551461935043335, "learning_rate": 0.000365, "loss": 0.1278, "step": 74 }, { "epoch": 0.03912363067292645, "grad_norm": 0.3314933478832245, "learning_rate": 0.00037, "loss": 0.0918, "step": 75 }, { "epoch": 0.0396452790818988, "grad_norm": 0.3463922441005707, "learning_rate": 0.000375, "loss": 0.0948, "step": 76 }, { "epoch": 0.040166927490871154, "grad_norm": 0.5401505827903748, "learning_rate": 0.00038, "loss": 0.1574, "step": 77 }, { "epoch": 0.0406885758998435, "grad_norm": 0.39233317971229553, "learning_rate": 0.00038500000000000003, "loss": 0.1312, "step": 78 }, { "epoch": 0.04121022430881586, "grad_norm": 0.4380398988723755, "learning_rate": 0.00039000000000000005, "loss": 0.0601, "step": 79 }, { "epoch": 0.041731872717788214, "grad_norm": 0.3931694030761719, "learning_rate": 0.000395, "loss": 0.0962, "step": 80 }, { "epoch": 0.04225352112676056, "grad_norm": 0.3566243648529053, "learning_rate": 0.0004, "loss": 0.1137, "step": 81 }, { "epoch": 0.04277516953573292, "grad_norm": 0.40159469842910767, "learning_rate": 0.00040500000000000003, "loss": 0.1128, "step": 82 }, { "epoch": 0.04329681794470527, "grad_norm": 0.30474773049354553, "learning_rate": 0.00041, "loss": 0.0922, "step": 83 }, { "epoch": 0.04381846635367762, "grad_norm": 0.31177017092704773, "learning_rate": 0.000415, "loss": 0.1015, "step": 84 }, { "epoch": 0.04434011476264997, "grad_norm": 0.3996855914592743, "learning_rate": 0.00042, "loss": 0.1266, "step": 85 }, { "epoch": 0.044861763171622326, "grad_norm": 0.2281728833913803, "learning_rate": 0.000425, "loss": 0.0758, "step": 86 }, { "epoch": 0.04538341158059468, "grad_norm": 0.5169669985771179, "learning_rate": 0.00043, "loss": 0.1092, "step": 87 }, { "epoch": 0.04590505998956703, "grad_norm": 0.5525585412979126, "learning_rate": 0.000435, "loss": 0.1226, "step": 88 }, { "epoch": 0.046426708398539386, "grad_norm": 0.33093884587287903, "learning_rate": 0.00044, "loss": 0.0879, "step": 89 }, { "epoch": 0.046948356807511735, "grad_norm": 0.3713582158088684, "learning_rate": 0.00044500000000000003, "loss": 0.1121, "step": 90 }, { "epoch": 0.04747000521648409, "grad_norm": 0.565517246723175, "learning_rate": 0.00045000000000000004, "loss": 0.1469, "step": 91 }, { "epoch": 0.047991653625456446, "grad_norm": 0.31801939010620117, "learning_rate": 0.000455, "loss": 0.0915, "step": 92 }, { "epoch": 0.048513302034428794, "grad_norm": 0.42586401104927063, "learning_rate": 0.00046, "loss": 0.0411, "step": 93 }, { "epoch": 0.04903495044340115, "grad_norm": 0.42403289675712585, "learning_rate": 0.000465, "loss": 0.0589, "step": 94 }, { "epoch": 0.0495565988523735, "grad_norm": 0.2604529559612274, "learning_rate": 0.00047, "loss": 0.0779, "step": 95 }, { "epoch": 0.050078247261345854, "grad_norm": 0.32257840037345886, "learning_rate": 0.000475, "loss": 0.0958, "step": 96 }, { "epoch": 0.0505998956703182, "grad_norm": 0.2648946940898895, "learning_rate": 0.00048, "loss": 0.0591, "step": 97 }, { "epoch": 0.05112154407929056, "grad_norm": 0.26664629578590393, "learning_rate": 0.00048499999999999997, "loss": 0.0607, "step": 98 }, { "epoch": 0.051643192488262914, "grad_norm": 0.2891658544540405, "learning_rate": 0.00049, "loss": 0.0478, "step": 99 }, { "epoch": 0.05216484089723526, "grad_norm": 0.35936883091926575, "learning_rate": 0.000495, "loss": 0.1126, "step": 100 }, { "epoch": 0.05268648930620762, "grad_norm": 0.3226841986179352, "learning_rate": 0.0005, "loss": 0.0995, "step": 101 }, { "epoch": 0.053208137715179966, "grad_norm": 0.2140406370162964, "learning_rate": 0.0004994444444444445, "loss": 0.0636, "step": 102 }, { "epoch": 0.05372978612415232, "grad_norm": 0.28297877311706543, "learning_rate": 0.0004988888888888889, "loss": 0.0674, "step": 103 }, { "epoch": 0.05425143453312467, "grad_norm": 0.27131739258766174, "learning_rate": 0.0004983333333333334, "loss": 0.0657, "step": 104 }, { "epoch": 0.054773082942097026, "grad_norm": 0.28402701020240784, "learning_rate": 0.0004977777777777778, "loss": 0.0894, "step": 105 }, { "epoch": 0.05529473135106938, "grad_norm": 0.33924373984336853, "learning_rate": 0.0004972222222222222, "loss": 0.1264, "step": 106 }, { "epoch": 0.05581637976004173, "grad_norm": 0.3655984401702881, "learning_rate": 0.0004966666666666666, "loss": 0.0828, "step": 107 }, { "epoch": 0.056338028169014086, "grad_norm": 0.2262953370809555, "learning_rate": 0.0004961111111111111, "loss": 0.0662, "step": 108 }, { "epoch": 0.056859676577986434, "grad_norm": 0.23988084495067596, "learning_rate": 0.0004955555555555556, "loss": 0.0672, "step": 109 }, { "epoch": 0.05738132498695879, "grad_norm": 0.228820338845253, "learning_rate": 0.000495, "loss": 0.0615, "step": 110 }, { "epoch": 0.057902973395931145, "grad_norm": 0.32484373450279236, "learning_rate": 0.0004944444444444445, "loss": 0.0833, "step": 111 }, { "epoch": 0.058424621804903494, "grad_norm": 0.22520330548286438, "learning_rate": 0.0004938888888888889, "loss": 0.0767, "step": 112 }, { "epoch": 0.05894627021387585, "grad_norm": 0.4783564805984497, "learning_rate": 0.0004933333333333334, "loss": 0.0999, "step": 113 }, { "epoch": 0.0594679186228482, "grad_norm": 0.2565033733844757, "learning_rate": 0.0004927777777777777, "loss": 0.0819, "step": 114 }, { "epoch": 0.059989567031820554, "grad_norm": 0.19332879781723022, "learning_rate": 0.0004922222222222222, "loss": 0.0702, "step": 115 }, { "epoch": 0.0605112154407929, "grad_norm": 0.2507823705673218, "learning_rate": 0.0004916666666666666, "loss": 0.076, "step": 116 }, { "epoch": 0.06103286384976526, "grad_norm": 0.29689472913742065, "learning_rate": 0.0004911111111111111, "loss": 0.0748, "step": 117 }, { "epoch": 0.06155451225873761, "grad_norm": 0.34821203351020813, "learning_rate": 0.0004905555555555556, "loss": 0.0949, "step": 118 }, { "epoch": 0.06207616066770996, "grad_norm": 0.25025618076324463, "learning_rate": 0.00049, "loss": 0.0813, "step": 119 }, { "epoch": 0.06259780907668232, "grad_norm": 0.23138757050037384, "learning_rate": 0.0004894444444444445, "loss": 0.0806, "step": 120 }, { "epoch": 0.06311945748565467, "grad_norm": 0.25655433535575867, "learning_rate": 0.0004888888888888889, "loss": 0.0864, "step": 121 }, { "epoch": 0.06364110589462701, "grad_norm": 0.2863710820674896, "learning_rate": 0.0004883333333333333, "loss": 0.0659, "step": 122 }, { "epoch": 0.06416275430359937, "grad_norm": 0.2628318965435028, "learning_rate": 0.0004877777777777778, "loss": 0.0746, "step": 123 }, { "epoch": 0.06468440271257173, "grad_norm": 0.2095496952533722, "learning_rate": 0.0004872222222222222, "loss": 0.0746, "step": 124 }, { "epoch": 0.06520605112154408, "grad_norm": 0.25687775015830994, "learning_rate": 0.0004866666666666667, "loss": 0.0867, "step": 125 }, { "epoch": 0.06572769953051644, "grad_norm": 0.3623638153076172, "learning_rate": 0.0004861111111111111, "loss": 0.0859, "step": 126 }, { "epoch": 0.06624934793948878, "grad_norm": 0.22254744172096252, "learning_rate": 0.0004855555555555556, "loss": 0.0956, "step": 127 }, { "epoch": 0.06677099634846113, "grad_norm": 0.42705070972442627, "learning_rate": 0.00048499999999999997, "loss": 0.0885, "step": 128 }, { "epoch": 0.06729264475743349, "grad_norm": 0.23360145092010498, "learning_rate": 0.00048444444444444446, "loss": 0.0521, "step": 129 }, { "epoch": 0.06781429316640585, "grad_norm": 0.1959061473608017, "learning_rate": 0.0004838888888888889, "loss": 0.043, "step": 130 }, { "epoch": 0.0683359415753782, "grad_norm": 0.32006219029426575, "learning_rate": 0.00048333333333333334, "loss": 0.0942, "step": 131 }, { "epoch": 0.06885758998435054, "grad_norm": 0.20010985434055328, "learning_rate": 0.0004827777777777778, "loss": 0.0645, "step": 132 }, { "epoch": 0.0693792383933229, "grad_norm": 0.18007700145244598, "learning_rate": 0.0004822222222222222, "loss": 0.0593, "step": 133 }, { "epoch": 0.06990088680229525, "grad_norm": 0.23080182075500488, "learning_rate": 0.0004816666666666667, "loss": 0.069, "step": 134 }, { "epoch": 0.07042253521126761, "grad_norm": 0.16220460832118988, "learning_rate": 0.0004811111111111111, "loss": 0.0499, "step": 135 }, { "epoch": 0.07094418362023996, "grad_norm": 0.19325301051139832, "learning_rate": 0.0004805555555555556, "loss": 0.0616, "step": 136 }, { "epoch": 0.0714658320292123, "grad_norm": 0.16364900767803192, "learning_rate": 0.00048, "loss": 0.0612, "step": 137 }, { "epoch": 0.07198748043818466, "grad_norm": 0.15745937824249268, "learning_rate": 0.00047944444444444445, "loss": 0.0526, "step": 138 }, { "epoch": 0.07250912884715702, "grad_norm": 0.22706539928913116, "learning_rate": 0.0004788888888888889, "loss": 0.067, "step": 139 }, { "epoch": 0.07303077725612937, "grad_norm": 0.22147034108638763, "learning_rate": 0.0004783333333333333, "loss": 0.0684, "step": 140 }, { "epoch": 0.07355242566510173, "grad_norm": 0.2623853385448456, "learning_rate": 0.0004777777777777778, "loss": 0.0491, "step": 141 }, { "epoch": 0.07407407407407407, "grad_norm": 0.1899435669183731, "learning_rate": 0.00047722222222222225, "loss": 0.029, "step": 142 }, { "epoch": 0.07459572248304643, "grad_norm": 0.2669859826564789, "learning_rate": 0.0004766666666666667, "loss": 0.064, "step": 143 }, { "epoch": 0.07511737089201878, "grad_norm": 0.18063829839229584, "learning_rate": 0.0004761111111111111, "loss": 0.0624, "step": 144 }, { "epoch": 0.07563901930099114, "grad_norm": 0.22147716581821442, "learning_rate": 0.00047555555555555556, "loss": 0.0544, "step": 145 }, { "epoch": 0.07616066770996348, "grad_norm": 0.30522170662879944, "learning_rate": 0.000475, "loss": 0.077, "step": 146 }, { "epoch": 0.07668231611893583, "grad_norm": 0.15942497551441193, "learning_rate": 0.00047444444444444444, "loss": 0.0372, "step": 147 }, { "epoch": 0.07720396452790819, "grad_norm": 0.1456826627254486, "learning_rate": 0.00047388888888888893, "loss": 0.0423, "step": 148 }, { "epoch": 0.07772561293688054, "grad_norm": 0.17793269455432892, "learning_rate": 0.00047333333333333336, "loss": 0.0559, "step": 149 }, { "epoch": 0.0782472613458529, "grad_norm": 0.152329221367836, "learning_rate": 0.0004727777777777778, "loss": 0.0266, "step": 150 }, { "epoch": 0.07876890975482524, "grad_norm": 0.19327858090400696, "learning_rate": 0.00047222222222222224, "loss": 0.0608, "step": 151 }, { "epoch": 0.0792905581637976, "grad_norm": 0.15060095489025116, "learning_rate": 0.0004716666666666667, "loss": 0.0461, "step": 152 }, { "epoch": 0.07981220657276995, "grad_norm": 0.1864742785692215, "learning_rate": 0.0004711111111111111, "loss": 0.0724, "step": 153 }, { "epoch": 0.08033385498174231, "grad_norm": 0.1422508805990219, "learning_rate": 0.00047055555555555555, "loss": 0.0325, "step": 154 }, { "epoch": 0.08085550339071466, "grad_norm": 0.21115481853485107, "learning_rate": 0.00047, "loss": 0.0535, "step": 155 }, { "epoch": 0.081377151799687, "grad_norm": 0.2197350263595581, "learning_rate": 0.0004694444444444445, "loss": 0.0703, "step": 156 }, { "epoch": 0.08189880020865936, "grad_norm": 0.1608528196811676, "learning_rate": 0.0004688888888888889, "loss": 0.0447, "step": 157 }, { "epoch": 0.08242044861763172, "grad_norm": 0.1445985585451126, "learning_rate": 0.00046833333333333335, "loss": 0.0469, "step": 158 }, { "epoch": 0.08294209702660407, "grad_norm": 0.25215667486190796, "learning_rate": 0.0004677777777777778, "loss": 0.0709, "step": 159 }, { "epoch": 0.08346374543557643, "grad_norm": 0.14391636848449707, "learning_rate": 0.0004672222222222222, "loss": 0.0457, "step": 160 }, { "epoch": 0.08398539384454877, "grad_norm": 0.29619306325912476, "learning_rate": 0.00046666666666666666, "loss": 0.0765, "step": 161 }, { "epoch": 0.08450704225352113, "grad_norm": 0.15701289474964142, "learning_rate": 0.0004661111111111111, "loss": 0.0418, "step": 162 }, { "epoch": 0.08502869066249348, "grad_norm": 0.1698683649301529, "learning_rate": 0.0004655555555555556, "loss": 0.0294, "step": 163 }, { "epoch": 0.08555033907146584, "grad_norm": 0.12165573239326477, "learning_rate": 0.000465, "loss": 0.0258, "step": 164 }, { "epoch": 0.08607198748043818, "grad_norm": 0.1611219197511673, "learning_rate": 0.00046444444444444446, "loss": 0.0491, "step": 165 }, { "epoch": 0.08659363588941053, "grad_norm": 0.1486036628484726, "learning_rate": 0.0004638888888888889, "loss": 0.0479, "step": 166 }, { "epoch": 0.08711528429838289, "grad_norm": 0.13054965436458588, "learning_rate": 0.00046333333333333334, "loss": 0.0401, "step": 167 }, { "epoch": 0.08763693270735524, "grad_norm": 0.15433131158351898, "learning_rate": 0.0004627777777777778, "loss": 0.048, "step": 168 }, { "epoch": 0.0881585811163276, "grad_norm": 0.17511604726314545, "learning_rate": 0.0004622222222222222, "loss": 0.0569, "step": 169 }, { "epoch": 0.08868022952529994, "grad_norm": 0.1398395150899887, "learning_rate": 0.0004616666666666667, "loss": 0.034, "step": 170 }, { "epoch": 0.0892018779342723, "grad_norm": 0.15484075248241425, "learning_rate": 0.00046111111111111114, "loss": 0.0514, "step": 171 }, { "epoch": 0.08972352634324465, "grad_norm": 0.17851784825325012, "learning_rate": 0.0004605555555555556, "loss": 0.0571, "step": 172 }, { "epoch": 0.09024517475221701, "grad_norm": 0.18745650351047516, "learning_rate": 0.00046, "loss": 0.0523, "step": 173 }, { "epoch": 0.09076682316118936, "grad_norm": 0.18322691321372986, "learning_rate": 0.00045944444444444445, "loss": 0.0642, "step": 174 }, { "epoch": 0.0912884715701617, "grad_norm": 0.1173708513379097, "learning_rate": 0.0004588888888888889, "loss": 0.0267, "step": 175 }, { "epoch": 0.09181011997913406, "grad_norm": 0.1754874438047409, "learning_rate": 0.0004583333333333333, "loss": 0.0657, "step": 176 }, { "epoch": 0.09233176838810642, "grad_norm": 0.13830502331256866, "learning_rate": 0.0004577777777777778, "loss": 0.0433, "step": 177 }, { "epoch": 0.09285341679707877, "grad_norm": 0.11174938827753067, "learning_rate": 0.0004572222222222222, "loss": 0.04, "step": 178 }, { "epoch": 0.09337506520605113, "grad_norm": 0.1829378753900528, "learning_rate": 0.0004566666666666667, "loss": 0.0453, "step": 179 }, { "epoch": 0.09389671361502347, "grad_norm": 0.10748015344142914, "learning_rate": 0.0004561111111111111, "loss": 0.05, "step": 180 }, { "epoch": 0.09441836202399582, "grad_norm": 0.1160806268453598, "learning_rate": 0.00045555555555555556, "loss": 0.0245, "step": 181 }, { "epoch": 0.09494001043296818, "grad_norm": 0.12387479841709137, "learning_rate": 0.000455, "loss": 0.0259, "step": 182 }, { "epoch": 0.09546165884194054, "grad_norm": 0.1586403250694275, "learning_rate": 0.00045444444444444444, "loss": 0.0378, "step": 183 }, { "epoch": 0.09598330725091289, "grad_norm": 0.18905822932720184, "learning_rate": 0.00045388888888888893, "loss": 0.0484, "step": 184 }, { "epoch": 0.09650495565988523, "grad_norm": 0.17541544139385223, "learning_rate": 0.0004533333333333333, "loss": 0.0503, "step": 185 }, { "epoch": 0.09702660406885759, "grad_norm": 0.1083071306347847, "learning_rate": 0.0004527777777777778, "loss": 0.0439, "step": 186 }, { "epoch": 0.09754825247782994, "grad_norm": 0.10464104264974594, "learning_rate": 0.00045222222222222224, "loss": 0.0271, "step": 187 }, { "epoch": 0.0980699008868023, "grad_norm": 0.18022054433822632, "learning_rate": 0.0004516666666666667, "loss": 0.0589, "step": 188 }, { "epoch": 0.09859154929577464, "grad_norm": 0.18715251982212067, "learning_rate": 0.0004511111111111111, "loss": 0.0489, "step": 189 }, { "epoch": 0.099113197704747, "grad_norm": 0.10440787672996521, "learning_rate": 0.00045055555555555555, "loss": 0.0221, "step": 190 }, { "epoch": 0.09963484611371935, "grad_norm": 0.11525921523571014, "learning_rate": 0.00045000000000000004, "loss": 0.0427, "step": 191 }, { "epoch": 0.10015649452269171, "grad_norm": 0.1573028564453125, "learning_rate": 0.0004494444444444444, "loss": 0.04, "step": 192 }, { "epoch": 0.10067814293166406, "grad_norm": 0.15942253172397614, "learning_rate": 0.0004488888888888889, "loss": 0.045, "step": 193 }, { "epoch": 0.1011997913406364, "grad_norm": 0.2997572422027588, "learning_rate": 0.0004483333333333333, "loss": 0.062, "step": 194 }, { "epoch": 0.10172143974960876, "grad_norm": 0.1859196424484253, "learning_rate": 0.0004477777777777778, "loss": 0.0496, "step": 195 }, { "epoch": 0.10224308815858112, "grad_norm": 0.1265893131494522, "learning_rate": 0.0004472222222222222, "loss": 0.0457, "step": 196 }, { "epoch": 0.10276473656755347, "grad_norm": 0.16036029160022736, "learning_rate": 0.00044666666666666666, "loss": 0.046, "step": 197 }, { "epoch": 0.10328638497652583, "grad_norm": 0.10421448945999146, "learning_rate": 0.00044611111111111115, "loss": 0.033, "step": 198 }, { "epoch": 0.10380803338549817, "grad_norm": 0.12321974337100983, "learning_rate": 0.00044555555555555554, "loss": 0.0458, "step": 199 }, { "epoch": 0.10432968179447052, "grad_norm": 0.13863791525363922, "learning_rate": 0.00044500000000000003, "loss": 0.0221, "step": 200 }, { "epoch": 0.10485133020344288, "grad_norm": 0.11896353214979172, "learning_rate": 0.0004444444444444444, "loss": 0.0477, "step": 201 }, { "epoch": 0.10537297861241524, "grad_norm": 0.1473105251789093, "learning_rate": 0.0004438888888888889, "loss": 0.056, "step": 202 }, { "epoch": 0.10589462702138759, "grad_norm": 0.15058237314224243, "learning_rate": 0.00044333333333333334, "loss": 0.0477, "step": 203 }, { "epoch": 0.10641627543035993, "grad_norm": 0.10770102590322495, "learning_rate": 0.0004427777777777778, "loss": 0.0316, "step": 204 }, { "epoch": 0.10693792383933229, "grad_norm": 0.13766999542713165, "learning_rate": 0.00044222222222222227, "loss": 0.041, "step": 205 }, { "epoch": 0.10745957224830464, "grad_norm": 0.11786706745624542, "learning_rate": 0.00044166666666666665, "loss": 0.0302, "step": 206 }, { "epoch": 0.107981220657277, "grad_norm": 0.10209888964891434, "learning_rate": 0.00044111111111111114, "loss": 0.0396, "step": 207 }, { "epoch": 0.10850286906624934, "grad_norm": 0.13609950244426727, "learning_rate": 0.0004405555555555555, "loss": 0.0394, "step": 208 }, { "epoch": 0.1090245174752217, "grad_norm": 0.11915361881256104, "learning_rate": 0.00044, "loss": 0.0421, "step": 209 }, { "epoch": 0.10954616588419405, "grad_norm": 0.11170439422130585, "learning_rate": 0.0004394444444444445, "loss": 0.0395, "step": 210 }, { "epoch": 0.11006781429316641, "grad_norm": 0.12584055960178375, "learning_rate": 0.0004388888888888889, "loss": 0.0534, "step": 211 }, { "epoch": 0.11058946270213876, "grad_norm": 0.1454746276140213, "learning_rate": 0.0004383333333333334, "loss": 0.0469, "step": 212 }, { "epoch": 0.1111111111111111, "grad_norm": 0.10297106951475143, "learning_rate": 0.00043777777777777776, "loss": 0.0359, "step": 213 }, { "epoch": 0.11163275952008346, "grad_norm": 0.10994141548871994, "learning_rate": 0.00043722222222222225, "loss": 0.0404, "step": 214 }, { "epoch": 0.11215440792905582, "grad_norm": 0.13165079057216644, "learning_rate": 0.00043666666666666664, "loss": 0.0475, "step": 215 }, { "epoch": 0.11267605633802817, "grad_norm": 0.11115416139364243, "learning_rate": 0.00043611111111111113, "loss": 0.0351, "step": 216 }, { "epoch": 0.11319770474700053, "grad_norm": 0.15927758812904358, "learning_rate": 0.0004355555555555555, "loss": 0.0468, "step": 217 }, { "epoch": 0.11371935315597287, "grad_norm": 0.0941813513636589, "learning_rate": 0.000435, "loss": 0.0337, "step": 218 }, { "epoch": 0.11424100156494522, "grad_norm": 0.10850685834884644, "learning_rate": 0.0004344444444444445, "loss": 0.0211, "step": 219 }, { "epoch": 0.11476264997391758, "grad_norm": 0.0790611058473587, "learning_rate": 0.0004338888888888889, "loss": 0.0196, "step": 220 }, { "epoch": 0.11528429838288994, "grad_norm": 0.10849782079458237, "learning_rate": 0.00043333333333333337, "loss": 0.04, "step": 221 }, { "epoch": 0.11580594679186229, "grad_norm": 0.09607880562543869, "learning_rate": 0.00043277777777777775, "loss": 0.0291, "step": 222 }, { "epoch": 0.11632759520083463, "grad_norm": 0.17959930002689362, "learning_rate": 0.00043222222222222224, "loss": 0.0426, "step": 223 }, { "epoch": 0.11684924360980699, "grad_norm": 0.08865644782781601, "learning_rate": 0.0004316666666666667, "loss": 0.0321, "step": 224 }, { "epoch": 0.11737089201877934, "grad_norm": 0.17324934899806976, "learning_rate": 0.0004311111111111111, "loss": 0.0537, "step": 225 }, { "epoch": 0.1178925404277517, "grad_norm": 0.10226263850927353, "learning_rate": 0.0004305555555555556, "loss": 0.0342, "step": 226 }, { "epoch": 0.11841418883672405, "grad_norm": 0.10456152260303497, "learning_rate": 0.00043, "loss": 0.039, "step": 227 }, { "epoch": 0.1189358372456964, "grad_norm": 0.10196290910243988, "learning_rate": 0.0004294444444444445, "loss": 0.0329, "step": 228 }, { "epoch": 0.11945748565466875, "grad_norm": 0.12004778534173965, "learning_rate": 0.00042888888888888886, "loss": 0.0434, "step": 229 }, { "epoch": 0.11997913406364111, "grad_norm": 0.10152442753314972, "learning_rate": 0.00042833333333333335, "loss": 0.0305, "step": 230 }, { "epoch": 0.12050078247261346, "grad_norm": 0.1072554886341095, "learning_rate": 0.0004277777777777778, "loss": 0.0407, "step": 231 }, { "epoch": 0.1210224308815858, "grad_norm": 0.08478479087352753, "learning_rate": 0.00042722222222222223, "loss": 0.0375, "step": 232 }, { "epoch": 0.12154407929055816, "grad_norm": 0.11901957541704178, "learning_rate": 0.0004266666666666667, "loss": 0.0281, "step": 233 }, { "epoch": 0.12206572769953052, "grad_norm": 0.097981758415699, "learning_rate": 0.0004261111111111111, "loss": 0.0365, "step": 234 }, { "epoch": 0.12258737610850287, "grad_norm": 0.08464547991752625, "learning_rate": 0.0004255555555555556, "loss": 0.0227, "step": 235 }, { "epoch": 0.12310902451747523, "grad_norm": 0.18886807560920715, "learning_rate": 0.000425, "loss": 0.0494, "step": 236 }, { "epoch": 0.12363067292644757, "grad_norm": 0.08432997763156891, "learning_rate": 0.00042444444444444447, "loss": 0.031, "step": 237 }, { "epoch": 0.12415232133541992, "grad_norm": 0.24738061428070068, "learning_rate": 0.0004238888888888889, "loss": 0.0611, "step": 238 }, { "epoch": 0.12467396974439228, "grad_norm": 0.11955960839986801, "learning_rate": 0.00042333333333333334, "loss": 0.0481, "step": 239 }, { "epoch": 0.12519561815336464, "grad_norm": 0.132662832736969, "learning_rate": 0.0004227777777777778, "loss": 0.0432, "step": 240 }, { "epoch": 0.12571726656233698, "grad_norm": 0.08496639877557755, "learning_rate": 0.0004222222222222222, "loss": 0.0328, "step": 241 }, { "epoch": 0.12623891497130935, "grad_norm": 0.13830861449241638, "learning_rate": 0.0004216666666666667, "loss": 0.0336, "step": 242 }, { "epoch": 0.1267605633802817, "grad_norm": 0.12200845032930374, "learning_rate": 0.0004211111111111111, "loss": 0.0346, "step": 243 }, { "epoch": 0.12728221178925403, "grad_norm": 0.10438041388988495, "learning_rate": 0.0004205555555555556, "loss": 0.039, "step": 244 }, { "epoch": 0.1278038601982264, "grad_norm": 0.10238846391439438, "learning_rate": 0.00042, "loss": 0.0442, "step": 245 }, { "epoch": 0.12832550860719874, "grad_norm": 0.10930721461772919, "learning_rate": 0.00041944444444444445, "loss": 0.0426, "step": 246 }, { "epoch": 0.1288471570161711, "grad_norm": 0.09867265820503235, "learning_rate": 0.0004188888888888889, "loss": 0.0402, "step": 247 }, { "epoch": 0.12936880542514345, "grad_norm": 0.1137848049402237, "learning_rate": 0.00041833333333333333, "loss": 0.0278, "step": 248 }, { "epoch": 0.1298904538341158, "grad_norm": 0.1364007592201233, "learning_rate": 0.0004177777777777778, "loss": 0.0437, "step": 249 }, { "epoch": 0.13041210224308816, "grad_norm": 0.09385659545660019, "learning_rate": 0.0004172222222222222, "loss": 0.0353, "step": 250 }, { "epoch": 0.1309337506520605, "grad_norm": 0.1302153617143631, "learning_rate": 0.0004166666666666667, "loss": 0.0287, "step": 251 }, { "epoch": 0.13145539906103287, "grad_norm": 0.09976278990507126, "learning_rate": 0.00041611111111111113, "loss": 0.0381, "step": 252 }, { "epoch": 0.13197704747000522, "grad_norm": 0.0966271236538887, "learning_rate": 0.00041555555555555557, "loss": 0.0204, "step": 253 }, { "epoch": 0.13249869587897756, "grad_norm": 0.0773528590798378, "learning_rate": 0.000415, "loss": 0.0285, "step": 254 }, { "epoch": 0.13302034428794993, "grad_norm": 0.2350674420595169, "learning_rate": 0.00041444444444444444, "loss": 0.0511, "step": 255 }, { "epoch": 0.13354199269692227, "grad_norm": 0.08375384658575058, "learning_rate": 0.0004138888888888889, "loss": 0.0341, "step": 256 }, { "epoch": 0.13406364110589464, "grad_norm": 0.09229125827550888, "learning_rate": 0.0004133333333333333, "loss": 0.0329, "step": 257 }, { "epoch": 0.13458528951486698, "grad_norm": 0.08750821650028229, "learning_rate": 0.0004127777777777778, "loss": 0.0283, "step": 258 }, { "epoch": 0.13510693792383932, "grad_norm": 0.075618676841259, "learning_rate": 0.00041222222222222224, "loss": 0.0291, "step": 259 }, { "epoch": 0.1356285863328117, "grad_norm": 0.16954250633716583, "learning_rate": 0.0004116666666666667, "loss": 0.0441, "step": 260 }, { "epoch": 0.13615023474178403, "grad_norm": 0.07529555261135101, "learning_rate": 0.0004111111111111111, "loss": 0.0139, "step": 261 }, { "epoch": 0.1366718831507564, "grad_norm": 0.08884407579898834, "learning_rate": 0.00041055555555555555, "loss": 0.0299, "step": 262 }, { "epoch": 0.13719353155972874, "grad_norm": 0.09607396274805069, "learning_rate": 0.00041, "loss": 0.0337, "step": 263 }, { "epoch": 0.13771517996870108, "grad_norm": 0.08453882485628128, "learning_rate": 0.00040944444444444443, "loss": 0.0315, "step": 264 }, { "epoch": 0.13823682837767345, "grad_norm": 0.09629228711128235, "learning_rate": 0.0004088888888888889, "loss": 0.0181, "step": 265 }, { "epoch": 0.1387584767866458, "grad_norm": 0.07212290167808533, "learning_rate": 0.00040833333333333336, "loss": 0.0262, "step": 266 }, { "epoch": 0.13928012519561817, "grad_norm": 0.09192827343940735, "learning_rate": 0.0004077777777777778, "loss": 0.018, "step": 267 }, { "epoch": 0.1398017736045905, "grad_norm": 0.10876122117042542, "learning_rate": 0.00040722222222222223, "loss": 0.0316, "step": 268 }, { "epoch": 0.14032342201356285, "grad_norm": 0.10796765238046646, "learning_rate": 0.00040666666666666667, "loss": 0.0323, "step": 269 }, { "epoch": 0.14084507042253522, "grad_norm": 0.08297892659902573, "learning_rate": 0.0004061111111111111, "loss": 0.0244, "step": 270 }, { "epoch": 0.14136671883150756, "grad_norm": 0.09534858912229538, "learning_rate": 0.00040555555555555554, "loss": 0.0279, "step": 271 }, { "epoch": 0.14188836724047993, "grad_norm": 0.07854770123958588, "learning_rate": 0.00040500000000000003, "loss": 0.032, "step": 272 }, { "epoch": 0.14241001564945227, "grad_norm": 0.16025401651859283, "learning_rate": 0.00040444444444444447, "loss": 0.0413, "step": 273 }, { "epoch": 0.1429316640584246, "grad_norm": 0.07919424772262573, "learning_rate": 0.0004038888888888889, "loss": 0.0277, "step": 274 }, { "epoch": 0.14345331246739698, "grad_norm": 0.07335282117128372, "learning_rate": 0.00040333333333333334, "loss": 0.0363, "step": 275 }, { "epoch": 0.14397496087636932, "grad_norm": 0.1280767321586609, "learning_rate": 0.0004027777777777778, "loss": 0.0402, "step": 276 }, { "epoch": 0.1444966092853417, "grad_norm": 0.11371007561683655, "learning_rate": 0.0004022222222222222, "loss": 0.0312, "step": 277 }, { "epoch": 0.14501825769431403, "grad_norm": 0.12229876220226288, "learning_rate": 0.00040166666666666665, "loss": 0.0357, "step": 278 }, { "epoch": 0.14553990610328638, "grad_norm": 0.11436333507299423, "learning_rate": 0.0004011111111111111, "loss": 0.0135, "step": 279 }, { "epoch": 0.14606155451225875, "grad_norm": 0.08084696531295776, "learning_rate": 0.0004005555555555556, "loss": 0.0302, "step": 280 }, { "epoch": 0.1465832029212311, "grad_norm": 0.09421739727258682, "learning_rate": 0.0004, "loss": 0.0376, "step": 281 }, { "epoch": 0.14710485133020346, "grad_norm": 0.0744849219918251, "learning_rate": 0.00039944444444444446, "loss": 0.0291, "step": 282 }, { "epoch": 0.1476264997391758, "grad_norm": 0.06754301488399506, "learning_rate": 0.0003988888888888889, "loss": 0.0262, "step": 283 }, { "epoch": 0.14814814814814814, "grad_norm": 0.06215747445821762, "learning_rate": 0.00039833333333333333, "loss": 0.0223, "step": 284 }, { "epoch": 0.1486697965571205, "grad_norm": 0.10289556533098221, "learning_rate": 0.00039777777777777777, "loss": 0.0401, "step": 285 }, { "epoch": 0.14919144496609285, "grad_norm": 0.10723885893821716, "learning_rate": 0.0003972222222222222, "loss": 0.018, "step": 286 }, { "epoch": 0.1497130933750652, "grad_norm": 0.12683100998401642, "learning_rate": 0.0003966666666666667, "loss": 0.0155, "step": 287 }, { "epoch": 0.15023474178403756, "grad_norm": 0.10709403455257416, "learning_rate": 0.00039611111111111113, "loss": 0.0186, "step": 288 }, { "epoch": 0.1507563901930099, "grad_norm": 0.09857751429080963, "learning_rate": 0.00039555555555555557, "loss": 0.0311, "step": 289 }, { "epoch": 0.15127803860198227, "grad_norm": 0.07990946620702744, "learning_rate": 0.000395, "loss": 0.032, "step": 290 }, { "epoch": 0.15179968701095461, "grad_norm": 0.06873098760843277, "learning_rate": 0.00039444444444444444, "loss": 0.0163, "step": 291 }, { "epoch": 0.15232133541992696, "grad_norm": 0.0788077712059021, "learning_rate": 0.00039388888888888893, "loss": 0.0319, "step": 292 }, { "epoch": 0.15284298382889933, "grad_norm": 0.08789033442735672, "learning_rate": 0.0003933333333333333, "loss": 0.0352, "step": 293 }, { "epoch": 0.15336463223787167, "grad_norm": 0.10574653744697571, "learning_rate": 0.0003927777777777778, "loss": 0.0411, "step": 294 }, { "epoch": 0.15388628064684404, "grad_norm": 0.08198726177215576, "learning_rate": 0.00039222222222222225, "loss": 0.0286, "step": 295 }, { "epoch": 0.15440792905581638, "grad_norm": 0.2811417579650879, "learning_rate": 0.0003916666666666667, "loss": 0.0508, "step": 296 }, { "epoch": 0.15492957746478872, "grad_norm": 0.1203279122710228, "learning_rate": 0.0003911111111111111, "loss": 0.0384, "step": 297 }, { "epoch": 0.1554512258737611, "grad_norm": 0.08802422881126404, "learning_rate": 0.00039055555555555556, "loss": 0.0305, "step": 298 }, { "epoch": 0.15597287428273343, "grad_norm": 0.05368930101394653, "learning_rate": 0.00039000000000000005, "loss": 0.0167, "step": 299 }, { "epoch": 0.1564945226917058, "grad_norm": 0.16041633486747742, "learning_rate": 0.00038944444444444443, "loss": 0.047, "step": 300 }, { "epoch": 0.15701617110067814, "grad_norm": 0.06771723926067352, "learning_rate": 0.0003888888888888889, "loss": 0.0242, "step": 301 }, { "epoch": 0.15753781950965048, "grad_norm": 0.09745685011148453, "learning_rate": 0.0003883333333333333, "loss": 0.0121, "step": 302 }, { "epoch": 0.15805946791862285, "grad_norm": 0.1079089567065239, "learning_rate": 0.0003877777777777778, "loss": 0.0331, "step": 303 }, { "epoch": 0.1585811163275952, "grad_norm": 0.07800073176622391, "learning_rate": 0.00038722222222222223, "loss": 0.0325, "step": 304 }, { "epoch": 0.15910276473656756, "grad_norm": 0.13546329736709595, "learning_rate": 0.00038666666666666667, "loss": 0.0296, "step": 305 }, { "epoch": 0.1596244131455399, "grad_norm": 0.0735045000910759, "learning_rate": 0.00038611111111111116, "loss": 0.0275, "step": 306 }, { "epoch": 0.16014606155451225, "grad_norm": 0.056763097643852234, "learning_rate": 0.00038555555555555554, "loss": 0.025, "step": 307 }, { "epoch": 0.16066770996348462, "grad_norm": 0.0723307803273201, "learning_rate": 0.00038500000000000003, "loss": 0.0269, "step": 308 }, { "epoch": 0.16118935837245696, "grad_norm": 0.07295756787061691, "learning_rate": 0.0003844444444444444, "loss": 0.0224, "step": 309 }, { "epoch": 0.16171100678142933, "grad_norm": 0.1010420173406601, "learning_rate": 0.0003838888888888889, "loss": 0.0154, "step": 310 }, { "epoch": 0.16223265519040167, "grad_norm": 0.10790162533521652, "learning_rate": 0.00038333333333333334, "loss": 0.0334, "step": 311 }, { "epoch": 0.162754303599374, "grad_norm": 0.06171411648392677, "learning_rate": 0.0003827777777777778, "loss": 0.026, "step": 312 }, { "epoch": 0.16327595200834638, "grad_norm": 0.0646505281329155, "learning_rate": 0.0003822222222222223, "loss": 0.0283, "step": 313 }, { "epoch": 0.16379760041731872, "grad_norm": 0.1241549476981163, "learning_rate": 0.00038166666666666666, "loss": 0.0433, "step": 314 }, { "epoch": 0.1643192488262911, "grad_norm": 0.08475686609745026, "learning_rate": 0.00038111111111111115, "loss": 0.0264, "step": 315 }, { "epoch": 0.16484089723526343, "grad_norm": 0.1006927415728569, "learning_rate": 0.00038055555555555553, "loss": 0.0373, "step": 316 }, { "epoch": 0.16536254564423578, "grad_norm": 0.08395830541849136, "learning_rate": 0.00038, "loss": 0.0151, "step": 317 }, { "epoch": 0.16588419405320814, "grad_norm": 0.05780460685491562, "learning_rate": 0.0003794444444444444, "loss": 0.018, "step": 318 }, { "epoch": 0.1664058424621805, "grad_norm": 0.08385057002305984, "learning_rate": 0.0003788888888888889, "loss": 0.0347, "step": 319 }, { "epoch": 0.16692749087115286, "grad_norm": 0.0629425197839737, "learning_rate": 0.0003783333333333334, "loss": 0.0288, "step": 320 }, { "epoch": 0.1674491392801252, "grad_norm": 0.07353231310844421, "learning_rate": 0.00037777777777777777, "loss": 0.0318, "step": 321 }, { "epoch": 0.16797078768909754, "grad_norm": 0.06632209569215775, "learning_rate": 0.00037722222222222226, "loss": 0.0286, "step": 322 }, { "epoch": 0.1684924360980699, "grad_norm": 0.10224422067403793, "learning_rate": 0.00037666666666666664, "loss": 0.0287, "step": 323 }, { "epoch": 0.16901408450704225, "grad_norm": 0.07615455985069275, "learning_rate": 0.00037611111111111113, "loss": 0.0245, "step": 324 }, { "epoch": 0.16953573291601462, "grad_norm": 0.08341842144727707, "learning_rate": 0.0003755555555555555, "loss": 0.0272, "step": 325 }, { "epoch": 0.17005738132498696, "grad_norm": 0.06340507417917252, "learning_rate": 0.000375, "loss": 0.0251, "step": 326 }, { "epoch": 0.1705790297339593, "grad_norm": 0.05245117098093033, "learning_rate": 0.0003744444444444445, "loss": 0.016, "step": 327 }, { "epoch": 0.17110067814293167, "grad_norm": 0.07821597903966904, "learning_rate": 0.0003738888888888889, "loss": 0.0166, "step": 328 }, { "epoch": 0.17162232655190401, "grad_norm": 0.05091237649321556, "learning_rate": 0.0003733333333333334, "loss": 0.0169, "step": 329 }, { "epoch": 0.17214397496087636, "grad_norm": 0.11584059149026871, "learning_rate": 0.00037277777777777776, "loss": 0.0424, "step": 330 }, { "epoch": 0.17266562336984873, "grad_norm": 0.08996029943227768, "learning_rate": 0.00037222222222222225, "loss": 0.0287, "step": 331 }, { "epoch": 0.17318727177882107, "grad_norm": 0.06258998066186905, "learning_rate": 0.00037166666666666663, "loss": 0.0243, "step": 332 }, { "epoch": 0.17370892018779344, "grad_norm": 0.06734970957040787, "learning_rate": 0.0003711111111111111, "loss": 0.0294, "step": 333 }, { "epoch": 0.17423056859676578, "grad_norm": 0.06081216409802437, "learning_rate": 0.0003705555555555556, "loss": 0.0262, "step": 334 }, { "epoch": 0.17475221700573812, "grad_norm": 0.06397537142038345, "learning_rate": 0.00037, "loss": 0.0161, "step": 335 }, { "epoch": 0.1752738654147105, "grad_norm": 0.07987434417009354, "learning_rate": 0.0003694444444444445, "loss": 0.0301, "step": 336 }, { "epoch": 0.17579551382368283, "grad_norm": 0.09395250678062439, "learning_rate": 0.00036888888888888887, "loss": 0.0289, "step": 337 }, { "epoch": 0.1763171622326552, "grad_norm": 0.05801301822066307, "learning_rate": 0.00036833333333333336, "loss": 0.0326, "step": 338 }, { "epoch": 0.17683881064162754, "grad_norm": 0.06285756826400757, "learning_rate": 0.00036777777777777774, "loss": 0.0235, "step": 339 }, { "epoch": 0.17736045905059988, "grad_norm": 0.06429009139537811, "learning_rate": 0.00036722222222222223, "loss": 0.0136, "step": 340 }, { "epoch": 0.17788210745957225, "grad_norm": 0.05570930242538452, "learning_rate": 0.00036666666666666667, "loss": 0.0205, "step": 341 }, { "epoch": 0.1784037558685446, "grad_norm": 0.061478108167648315, "learning_rate": 0.0003661111111111111, "loss": 0.026, "step": 342 }, { "epoch": 0.17892540427751696, "grad_norm": 0.07520420104265213, "learning_rate": 0.0003655555555555556, "loss": 0.0265, "step": 343 }, { "epoch": 0.1794470526864893, "grad_norm": 0.047426123172044754, "learning_rate": 0.000365, "loss": 0.0144, "step": 344 }, { "epoch": 0.17996870109546165, "grad_norm": 0.09971431642770767, "learning_rate": 0.00036444444444444447, "loss": 0.0359, "step": 345 }, { "epoch": 0.18049034950443402, "grad_norm": 0.0507560633122921, "learning_rate": 0.00036388888888888886, "loss": 0.0203, "step": 346 }, { "epoch": 0.18101199791340636, "grad_norm": 0.09610850363969803, "learning_rate": 0.00036333333333333335, "loss": 0.0352, "step": 347 }, { "epoch": 0.18153364632237873, "grad_norm": 0.04846423119306564, "learning_rate": 0.0003627777777777778, "loss": 0.0162, "step": 348 }, { "epoch": 0.18205529473135107, "grad_norm": 0.15771976113319397, "learning_rate": 0.0003622222222222222, "loss": 0.0323, "step": 349 }, { "epoch": 0.1825769431403234, "grad_norm": 0.07306705415248871, "learning_rate": 0.0003616666666666667, "loss": 0.0217, "step": 350 }, { "epoch": 0.18309859154929578, "grad_norm": 0.05630479007959366, "learning_rate": 0.0003611111111111111, "loss": 0.0149, "step": 351 }, { "epoch": 0.18362023995826812, "grad_norm": 0.08934023231267929, "learning_rate": 0.0003605555555555556, "loss": 0.0113, "step": 352 }, { "epoch": 0.1841418883672405, "grad_norm": 0.1724640429019928, "learning_rate": 0.00035999999999999997, "loss": 0.0435, "step": 353 }, { "epoch": 0.18466353677621283, "grad_norm": 0.06963273137807846, "learning_rate": 0.00035944444444444446, "loss": 0.0307, "step": 354 }, { "epoch": 0.18518518518518517, "grad_norm": 0.06084301322698593, "learning_rate": 0.0003588888888888889, "loss": 0.0306, "step": 355 }, { "epoch": 0.18570683359415754, "grad_norm": 0.07648872584104538, "learning_rate": 0.00035833333333333333, "loss": 0.0271, "step": 356 }, { "epoch": 0.18622848200312989, "grad_norm": 0.07619331032037735, "learning_rate": 0.00035777777777777777, "loss": 0.0171, "step": 357 }, { "epoch": 0.18675013041210226, "grad_norm": 0.08520349115133286, "learning_rate": 0.0003572222222222222, "loss": 0.0284, "step": 358 }, { "epoch": 0.1872717788210746, "grad_norm": 0.057310912758111954, "learning_rate": 0.0003566666666666667, "loss": 0.0223, "step": 359 }, { "epoch": 0.18779342723004694, "grad_norm": 0.08222941309213638, "learning_rate": 0.0003561111111111111, "loss": 0.0296, "step": 360 }, { "epoch": 0.1883150756390193, "grad_norm": 0.08427579700946808, "learning_rate": 0.00035555555555555557, "loss": 0.031, "step": 361 }, { "epoch": 0.18883672404799165, "grad_norm": 0.06189948692917824, "learning_rate": 0.000355, "loss": 0.0273, "step": 362 }, { "epoch": 0.18935837245696402, "grad_norm": 0.07053495943546295, "learning_rate": 0.00035444444444444445, "loss": 0.0197, "step": 363 }, { "epoch": 0.18988002086593636, "grad_norm": 0.0913248062133789, "learning_rate": 0.0003538888888888889, "loss": 0.0336, "step": 364 }, { "epoch": 0.1904016692749087, "grad_norm": 0.062306199222803116, "learning_rate": 0.0003533333333333333, "loss": 0.0291, "step": 365 }, { "epoch": 0.19092331768388107, "grad_norm": 0.09297792613506317, "learning_rate": 0.0003527777777777778, "loss": 0.0338, "step": 366 }, { "epoch": 0.1914449660928534, "grad_norm": 0.12690134346485138, "learning_rate": 0.00035222222222222225, "loss": 0.0399, "step": 367 }, { "epoch": 0.19196661450182578, "grad_norm": 0.07451540231704712, "learning_rate": 0.0003516666666666667, "loss": 0.0364, "step": 368 }, { "epoch": 0.19248826291079812, "grad_norm": 0.09954366087913513, "learning_rate": 0.0003511111111111111, "loss": 0.036, "step": 369 }, { "epoch": 0.19300991131977047, "grad_norm": 0.07105272263288498, "learning_rate": 0.00035055555555555556, "loss": 0.0226, "step": 370 }, { "epoch": 0.19353155972874284, "grad_norm": 0.06857888400554657, "learning_rate": 0.00035, "loss": 0.0305, "step": 371 }, { "epoch": 0.19405320813771518, "grad_norm": 0.060487356036901474, "learning_rate": 0.00034944444444444443, "loss": 0.0279, "step": 372 }, { "epoch": 0.19457485654668752, "grad_norm": 0.07935786992311478, "learning_rate": 0.0003488888888888889, "loss": 0.0377, "step": 373 }, { "epoch": 0.1950965049556599, "grad_norm": 0.10610669106245041, "learning_rate": 0.00034833333333333336, "loss": 0.0198, "step": 374 }, { "epoch": 0.19561815336463223, "grad_norm": 0.06738949567079544, "learning_rate": 0.0003477777777777778, "loss": 0.0321, "step": 375 }, { "epoch": 0.1961398017736046, "grad_norm": 0.09995345771312714, "learning_rate": 0.00034722222222222224, "loss": 0.0168, "step": 376 }, { "epoch": 0.19666145018257694, "grad_norm": 0.07820367068052292, "learning_rate": 0.00034666666666666667, "loss": 0.0192, "step": 377 }, { "epoch": 0.19718309859154928, "grad_norm": 0.05883244797587395, "learning_rate": 0.0003461111111111111, "loss": 0.0217, "step": 378 }, { "epoch": 0.19770474700052165, "grad_norm": 0.06929990649223328, "learning_rate": 0.00034555555555555555, "loss": 0.0248, "step": 379 }, { "epoch": 0.198226395409494, "grad_norm": 0.060583919286727905, "learning_rate": 0.000345, "loss": 0.0204, "step": 380 }, { "epoch": 0.19874804381846636, "grad_norm": 0.08263508230447769, "learning_rate": 0.0003444444444444445, "loss": 0.0261, "step": 381 }, { "epoch": 0.1992696922274387, "grad_norm": 0.07354709506034851, "learning_rate": 0.0003438888888888889, "loss": 0.0328, "step": 382 }, { "epoch": 0.19979134063641105, "grad_norm": 0.09151386469602585, "learning_rate": 0.00034333333333333335, "loss": 0.0315, "step": 383 }, { "epoch": 0.20031298904538342, "grad_norm": 0.06800325959920883, "learning_rate": 0.0003427777777777778, "loss": 0.0265, "step": 384 }, { "epoch": 0.20083463745435576, "grad_norm": 0.05672604963183403, "learning_rate": 0.0003422222222222222, "loss": 0.0216, "step": 385 }, { "epoch": 0.20135628586332813, "grad_norm": 0.07447244226932526, "learning_rate": 0.00034166666666666666, "loss": 0.0253, "step": 386 }, { "epoch": 0.20187793427230047, "grad_norm": 0.051845699548721313, "learning_rate": 0.0003411111111111111, "loss": 0.0291, "step": 387 }, { "epoch": 0.2023995826812728, "grad_norm": 0.04311797395348549, "learning_rate": 0.0003405555555555556, "loss": 0.0189, "step": 388 }, { "epoch": 0.20292123109024518, "grad_norm": 0.08901547640562057, "learning_rate": 0.00034, "loss": 0.0313, "step": 389 }, { "epoch": 0.20344287949921752, "grad_norm": 0.05055601894855499, "learning_rate": 0.00033944444444444446, "loss": 0.0231, "step": 390 }, { "epoch": 0.2039645279081899, "grad_norm": 0.04943820461630821, "learning_rate": 0.0003388888888888889, "loss": 0.021, "step": 391 }, { "epoch": 0.20448617631716223, "grad_norm": 0.0558842197060585, "learning_rate": 0.00033833333333333334, "loss": 0.0251, "step": 392 }, { "epoch": 0.20500782472613457, "grad_norm": 0.06570509821176529, "learning_rate": 0.00033777777777777777, "loss": 0.012, "step": 393 }, { "epoch": 0.20552947313510694, "grad_norm": 0.13640566170215607, "learning_rate": 0.0003372222222222222, "loss": 0.0396, "step": 394 }, { "epoch": 0.20605112154407929, "grad_norm": 0.05271435156464577, "learning_rate": 0.0003366666666666667, "loss": 0.028, "step": 395 }, { "epoch": 0.20657276995305165, "grad_norm": 0.04778929427266121, "learning_rate": 0.00033611111111111114, "loss": 0.0126, "step": 396 }, { "epoch": 0.207094418362024, "grad_norm": 0.04178643599152565, "learning_rate": 0.0003355555555555556, "loss": 0.0148, "step": 397 }, { "epoch": 0.20761606677099634, "grad_norm": 0.05933418869972229, "learning_rate": 0.000335, "loss": 0.0218, "step": 398 }, { "epoch": 0.2081377151799687, "grad_norm": 0.05561219900846481, "learning_rate": 0.00033444444444444445, "loss": 0.0167, "step": 399 }, { "epoch": 0.20865936358894105, "grad_norm": 0.0431622713804245, "learning_rate": 0.0003338888888888889, "loss": 0.0263, "step": 400 }, { "epoch": 0.20918101199791342, "grad_norm": 0.06121833994984627, "learning_rate": 0.0003333333333333333, "loss": 0.0224, "step": 401 }, { "epoch": 0.20970266040688576, "grad_norm": 0.0923122763633728, "learning_rate": 0.0003327777777777778, "loss": 0.0264, "step": 402 }, { "epoch": 0.2102243088158581, "grad_norm": 0.045166369527578354, "learning_rate": 0.0003322222222222222, "loss": 0.0135, "step": 403 }, { "epoch": 0.21074595722483047, "grad_norm": 0.08227386325597763, "learning_rate": 0.0003316666666666667, "loss": 0.0253, "step": 404 }, { "epoch": 0.2112676056338028, "grad_norm": 0.0516192689538002, "learning_rate": 0.0003311111111111111, "loss": 0.0278, "step": 405 }, { "epoch": 0.21178925404277518, "grad_norm": 0.11895351111888885, "learning_rate": 0.00033055555555555556, "loss": 0.0333, "step": 406 }, { "epoch": 0.21231090245174752, "grad_norm": 0.062691330909729, "learning_rate": 0.00033, "loss": 0.0278, "step": 407 }, { "epoch": 0.21283255086071987, "grad_norm": 0.04849197715520859, "learning_rate": 0.00032944444444444444, "loss": 0.0274, "step": 408 }, { "epoch": 0.21335419926969224, "grad_norm": 0.12979350984096527, "learning_rate": 0.0003288888888888889, "loss": 0.0311, "step": 409 }, { "epoch": 0.21387584767866458, "grad_norm": 0.09985975176095963, "learning_rate": 0.0003283333333333333, "loss": 0.0343, "step": 410 }, { "epoch": 0.21439749608763695, "grad_norm": 0.05388106778264046, "learning_rate": 0.0003277777777777778, "loss": 0.0119, "step": 411 }, { "epoch": 0.2149191444966093, "grad_norm": 0.061424896121025085, "learning_rate": 0.00032722222222222224, "loss": 0.0258, "step": 412 }, { "epoch": 0.21544079290558163, "grad_norm": 0.05304243043065071, "learning_rate": 0.0003266666666666667, "loss": 0.0252, "step": 413 }, { "epoch": 0.215962441314554, "grad_norm": 0.06124117597937584, "learning_rate": 0.0003261111111111111, "loss": 0.0265, "step": 414 }, { "epoch": 0.21648408972352634, "grad_norm": 0.0462118461728096, "learning_rate": 0.00032555555555555555, "loss": 0.018, "step": 415 }, { "epoch": 0.21700573813249868, "grad_norm": 0.05339544638991356, "learning_rate": 0.00032500000000000004, "loss": 0.015, "step": 416 }, { "epoch": 0.21752738654147105, "grad_norm": 0.04562271013855934, "learning_rate": 0.0003244444444444444, "loss": 0.0222, "step": 417 }, { "epoch": 0.2180490349504434, "grad_norm": 0.06268814951181412, "learning_rate": 0.0003238888888888889, "loss": 0.017, "step": 418 }, { "epoch": 0.21857068335941576, "grad_norm": 0.07897916436195374, "learning_rate": 0.0003233333333333333, "loss": 0.0362, "step": 419 }, { "epoch": 0.2190923317683881, "grad_norm": 0.0633966326713562, "learning_rate": 0.0003227777777777778, "loss": 0.016, "step": 420 }, { "epoch": 0.21961398017736045, "grad_norm": 0.06430386751890182, "learning_rate": 0.0003222222222222222, "loss": 0.029, "step": 421 }, { "epoch": 0.22013562858633282, "grad_norm": 0.07986673712730408, "learning_rate": 0.00032166666666666666, "loss": 0.0339, "step": 422 }, { "epoch": 0.22065727699530516, "grad_norm": 0.05497688055038452, "learning_rate": 0.00032111111111111115, "loss": 0.0135, "step": 423 }, { "epoch": 0.22117892540427753, "grad_norm": 0.07314179837703705, "learning_rate": 0.00032055555555555554, "loss": 0.0274, "step": 424 }, { "epoch": 0.22170057381324987, "grad_norm": 0.045945893973112106, "learning_rate": 0.00032, "loss": 0.0239, "step": 425 }, { "epoch": 0.2222222222222222, "grad_norm": 0.11235559731721878, "learning_rate": 0.0003194444444444444, "loss": 0.0302, "step": 426 }, { "epoch": 0.22274387063119458, "grad_norm": 0.06201227381825447, "learning_rate": 0.0003188888888888889, "loss": 0.0319, "step": 427 }, { "epoch": 0.22326551904016692, "grad_norm": 0.05009296536445618, "learning_rate": 0.00031833333333333334, "loss": 0.0175, "step": 428 }, { "epoch": 0.2237871674491393, "grad_norm": 0.06590239703655243, "learning_rate": 0.0003177777777777778, "loss": 0.0275, "step": 429 }, { "epoch": 0.22430881585811163, "grad_norm": 0.06859228760004044, "learning_rate": 0.00031722222222222227, "loss": 0.0282, "step": 430 }, { "epoch": 0.22483046426708397, "grad_norm": 0.04625241830945015, "learning_rate": 0.00031666666666666665, "loss": 0.025, "step": 431 }, { "epoch": 0.22535211267605634, "grad_norm": 0.06035872921347618, "learning_rate": 0.00031611111111111114, "loss": 0.0301, "step": 432 }, { "epoch": 0.22587376108502868, "grad_norm": 0.09716615080833435, "learning_rate": 0.0003155555555555555, "loss": 0.0135, "step": 433 }, { "epoch": 0.22639540949400105, "grad_norm": 0.060461174696683884, "learning_rate": 0.000315, "loss": 0.0237, "step": 434 }, { "epoch": 0.2269170579029734, "grad_norm": 0.0631205216050148, "learning_rate": 0.0003144444444444445, "loss": 0.0136, "step": 435 }, { "epoch": 0.22743870631194574, "grad_norm": 0.044443339109420776, "learning_rate": 0.0003138888888888889, "loss": 0.0237, "step": 436 }, { "epoch": 0.2279603547209181, "grad_norm": 0.04617779329419136, "learning_rate": 0.0003133333333333334, "loss": 0.0246, "step": 437 }, { "epoch": 0.22848200312989045, "grad_norm": 0.040022511035203934, "learning_rate": 0.00031277777777777776, "loss": 0.0291, "step": 438 }, { "epoch": 0.22900365153886282, "grad_norm": 0.10207943618297577, "learning_rate": 0.00031222222222222225, "loss": 0.0289, "step": 439 }, { "epoch": 0.22952529994783516, "grad_norm": 0.052271150052547455, "learning_rate": 0.00031166666666666663, "loss": 0.0275, "step": 440 }, { "epoch": 0.2300469483568075, "grad_norm": 0.05472894012928009, "learning_rate": 0.0003111111111111111, "loss": 0.0237, "step": 441 }, { "epoch": 0.23056859676577987, "grad_norm": 0.051506489515304565, "learning_rate": 0.0003105555555555555, "loss": 0.0267, "step": 442 }, { "epoch": 0.2310902451747522, "grad_norm": 0.12625692784786224, "learning_rate": 0.00031, "loss": 0.0295, "step": 443 }, { "epoch": 0.23161189358372458, "grad_norm": 0.052463430911302567, "learning_rate": 0.0003094444444444445, "loss": 0.0222, "step": 444 }, { "epoch": 0.23213354199269692, "grad_norm": 0.07140383124351501, "learning_rate": 0.0003088888888888889, "loss": 0.0274, "step": 445 }, { "epoch": 0.23265519040166927, "grad_norm": 0.04128264635801315, "learning_rate": 0.00030833333333333337, "loss": 0.0195, "step": 446 }, { "epoch": 0.23317683881064163, "grad_norm": 0.09302657097578049, "learning_rate": 0.00030777777777777775, "loss": 0.0372, "step": 447 }, { "epoch": 0.23369848721961398, "grad_norm": 0.07428940385580063, "learning_rate": 0.00030722222222222224, "loss": 0.0232, "step": 448 }, { "epoch": 0.23422013562858635, "grad_norm": 0.08673116564750671, "learning_rate": 0.0003066666666666667, "loss": 0.0292, "step": 449 }, { "epoch": 0.2347417840375587, "grad_norm": 0.06983821839094162, "learning_rate": 0.0003061111111111111, "loss": 0.0299, "step": 450 }, { "epoch": 0.23526343244653103, "grad_norm": 0.05890791490674019, "learning_rate": 0.0003055555555555556, "loss": 0.0159, "step": 451 }, { "epoch": 0.2357850808555034, "grad_norm": 0.05678574740886688, "learning_rate": 0.000305, "loss": 0.0194, "step": 452 }, { "epoch": 0.23630672926447574, "grad_norm": 0.06532768905162811, "learning_rate": 0.0003044444444444445, "loss": 0.0222, "step": 453 }, { "epoch": 0.2368283776734481, "grad_norm": 0.04442572221159935, "learning_rate": 0.00030388888888888886, "loss": 0.0204, "step": 454 }, { "epoch": 0.23735002608242045, "grad_norm": 0.06691122055053711, "learning_rate": 0.00030333333333333335, "loss": 0.0277, "step": 455 }, { "epoch": 0.2378716744913928, "grad_norm": 0.061397284269332886, "learning_rate": 0.0003027777777777778, "loss": 0.015, "step": 456 }, { "epoch": 0.23839332290036516, "grad_norm": 0.058687739074230194, "learning_rate": 0.0003022222222222222, "loss": 0.0307, "step": 457 }, { "epoch": 0.2389149713093375, "grad_norm": 0.07386653125286102, "learning_rate": 0.0003016666666666667, "loss": 0.0291, "step": 458 }, { "epoch": 0.23943661971830985, "grad_norm": 0.06010840833187103, "learning_rate": 0.0003011111111111111, "loss": 0.02, "step": 459 }, { "epoch": 0.23995826812728221, "grad_norm": 0.05542018637061119, "learning_rate": 0.0003005555555555556, "loss": 0.0185, "step": 460 }, { "epoch": 0.24047991653625456, "grad_norm": 0.07411111891269684, "learning_rate": 0.0003, "loss": 0.013, "step": 461 }, { "epoch": 0.24100156494522693, "grad_norm": 0.05750228837132454, "learning_rate": 0.00029944444444444446, "loss": 0.0157, "step": 462 }, { "epoch": 0.24152321335419927, "grad_norm": 0.04710470885038376, "learning_rate": 0.0002988888888888889, "loss": 0.0194, "step": 463 }, { "epoch": 0.2420448617631716, "grad_norm": 0.058672945946455, "learning_rate": 0.00029833333333333334, "loss": 0.0138, "step": 464 }, { "epoch": 0.24256651017214398, "grad_norm": 0.048859693109989166, "learning_rate": 0.0002977777777777778, "loss": 0.0177, "step": 465 }, { "epoch": 0.24308815858111632, "grad_norm": 0.0428357794880867, "learning_rate": 0.0002972222222222222, "loss": 0.013, "step": 466 }, { "epoch": 0.2436098069900887, "grad_norm": 0.053479310125112534, "learning_rate": 0.0002966666666666667, "loss": 0.0238, "step": 467 }, { "epoch": 0.24413145539906103, "grad_norm": 0.05971763655543327, "learning_rate": 0.0002961111111111111, "loss": 0.0258, "step": 468 }, { "epoch": 0.24465310380803337, "grad_norm": 0.045527439564466476, "learning_rate": 0.0002955555555555556, "loss": 0.0219, "step": 469 }, { "epoch": 0.24517475221700574, "grad_norm": 0.04123241826891899, "learning_rate": 0.000295, "loss": 0.0233, "step": 470 }, { "epoch": 0.24569640062597808, "grad_norm": 0.17581242322921753, "learning_rate": 0.00029444444444444445, "loss": 0.0359, "step": 471 }, { "epoch": 0.24621804903495045, "grad_norm": 0.09290144592523575, "learning_rate": 0.0002938888888888889, "loss": 0.0256, "step": 472 }, { "epoch": 0.2467396974439228, "grad_norm": 0.03519435226917267, "learning_rate": 0.0002933333333333333, "loss": 0.0198, "step": 473 }, { "epoch": 0.24726134585289514, "grad_norm": 0.04338726028800011, "learning_rate": 0.0002927777777777778, "loss": 0.0118, "step": 474 }, { "epoch": 0.2477829942618675, "grad_norm": 0.1172214224934578, "learning_rate": 0.0002922222222222222, "loss": 0.0324, "step": 475 }, { "epoch": 0.24830464267083985, "grad_norm": 0.06438913941383362, "learning_rate": 0.0002916666666666667, "loss": 0.0241, "step": 476 }, { "epoch": 0.24882629107981222, "grad_norm": 0.14249597489833832, "learning_rate": 0.00029111111111111113, "loss": 0.0356, "step": 477 }, { "epoch": 0.24934793948878456, "grad_norm": 0.045848701149225235, "learning_rate": 0.00029055555555555556, "loss": 0.0155, "step": 478 }, { "epoch": 0.2498695878977569, "grad_norm": 0.05208711698651314, "learning_rate": 0.00029, "loss": 0.0243, "step": 479 }, { "epoch": 0.25039123630672927, "grad_norm": 0.05537666380405426, "learning_rate": 0.00028944444444444444, "loss": 0.0308, "step": 480 }, { "epoch": 0.2509128847157016, "grad_norm": 0.049218740314245224, "learning_rate": 0.0002888888888888889, "loss": 0.0149, "step": 481 }, { "epoch": 0.25143453312467395, "grad_norm": 0.050829824060201645, "learning_rate": 0.0002883333333333333, "loss": 0.0252, "step": 482 }, { "epoch": 0.2519561815336463, "grad_norm": 0.047700315713882446, "learning_rate": 0.0002877777777777778, "loss": 0.024, "step": 483 }, { "epoch": 0.2524778299426187, "grad_norm": 0.07238329201936722, "learning_rate": 0.00028722222222222224, "loss": 0.0214, "step": 484 }, { "epoch": 0.25299947835159103, "grad_norm": 0.04379934072494507, "learning_rate": 0.0002866666666666667, "loss": 0.0259, "step": 485 }, { "epoch": 0.2535211267605634, "grad_norm": 0.0694945827126503, "learning_rate": 0.0002861111111111111, "loss": 0.0183, "step": 486 }, { "epoch": 0.2540427751695357, "grad_norm": 0.056973714381456375, "learning_rate": 0.00028555555555555555, "loss": 0.0272, "step": 487 }, { "epoch": 0.25456442357850806, "grad_norm": 0.05177774280309677, "learning_rate": 0.000285, "loss": 0.0275, "step": 488 }, { "epoch": 0.25508607198748046, "grad_norm": 0.08025998622179031, "learning_rate": 0.0002844444444444444, "loss": 0.0275, "step": 489 }, { "epoch": 0.2556077203964528, "grad_norm": 0.04469485580921173, "learning_rate": 0.0002838888888888889, "loss": 0.0233, "step": 490 }, { "epoch": 0.25612936880542514, "grad_norm": 0.06418605148792267, "learning_rate": 0.00028333333333333335, "loss": 0.0315, "step": 491 }, { "epoch": 0.2566510172143975, "grad_norm": 0.09197323769330978, "learning_rate": 0.0002827777777777778, "loss": 0.0252, "step": 492 }, { "epoch": 0.2571726656233698, "grad_norm": 0.058225080370903015, "learning_rate": 0.00028222222222222223, "loss": 0.0273, "step": 493 }, { "epoch": 0.2576943140323422, "grad_norm": 0.03813721984624863, "learning_rate": 0.00028166666666666666, "loss": 0.0244, "step": 494 }, { "epoch": 0.25821596244131456, "grad_norm": 0.07051227241754532, "learning_rate": 0.0002811111111111111, "loss": 0.0243, "step": 495 }, { "epoch": 0.2587376108502869, "grad_norm": 0.07289328426122665, "learning_rate": 0.00028055555555555554, "loss": 0.0275, "step": 496 }, { "epoch": 0.25925925925925924, "grad_norm": 0.08466362953186035, "learning_rate": 0.00028000000000000003, "loss": 0.0107, "step": 497 }, { "epoch": 0.2597809076682316, "grad_norm": 0.06937390565872192, "learning_rate": 0.00027944444444444447, "loss": 0.0277, "step": 498 }, { "epoch": 0.260302556077204, "grad_norm": 0.07908118516206741, "learning_rate": 0.0002788888888888889, "loss": 0.013, "step": 499 }, { "epoch": 0.2608242044861763, "grad_norm": 0.05328572168946266, "learning_rate": 0.00027833333333333334, "loss": 0.0241, "step": 500 }, { "epoch": 0.26134585289514867, "grad_norm": 0.039753999561071396, "learning_rate": 0.0002777777777777778, "loss": 0.0184, "step": 501 }, { "epoch": 0.261867501304121, "grad_norm": 0.046303607523441315, "learning_rate": 0.0002772222222222222, "loss": 0.024, "step": 502 }, { "epoch": 0.26238914971309335, "grad_norm": 0.07334708422422409, "learning_rate": 0.00027666666666666665, "loss": 0.0117, "step": 503 }, { "epoch": 0.26291079812206575, "grad_norm": 0.08413495868444443, "learning_rate": 0.0002761111111111111, "loss": 0.032, "step": 504 }, { "epoch": 0.2634324465310381, "grad_norm": 0.05528826639056206, "learning_rate": 0.0002755555555555556, "loss": 0.0263, "step": 505 }, { "epoch": 0.26395409494001043, "grad_norm": 0.04823659360408783, "learning_rate": 0.000275, "loss": 0.0272, "step": 506 }, { "epoch": 0.2644757433489828, "grad_norm": 0.06403996050357819, "learning_rate": 0.00027444444444444445, "loss": 0.016, "step": 507 }, { "epoch": 0.2649973917579551, "grad_norm": 0.044559504836797714, "learning_rate": 0.0002738888888888889, "loss": 0.024, "step": 508 }, { "epoch": 0.2655190401669275, "grad_norm": 0.050583697855472565, "learning_rate": 0.00027333333333333333, "loss": 0.0227, "step": 509 }, { "epoch": 0.26604068857589985, "grad_norm": 0.06379957497119904, "learning_rate": 0.00027277777777777776, "loss": 0.0353, "step": 510 }, { "epoch": 0.2665623369848722, "grad_norm": 0.05423254147171974, "learning_rate": 0.0002722222222222222, "loss": 0.023, "step": 511 }, { "epoch": 0.26708398539384454, "grad_norm": 0.05240878462791443, "learning_rate": 0.0002716666666666667, "loss": 0.0249, "step": 512 }, { "epoch": 0.2676056338028169, "grad_norm": 0.0713438093662262, "learning_rate": 0.00027111111111111113, "loss": 0.0258, "step": 513 }, { "epoch": 0.2681272822117893, "grad_norm": 0.05144781991839409, "learning_rate": 0.00027055555555555557, "loss": 0.0262, "step": 514 }, { "epoch": 0.2686489306207616, "grad_norm": 0.052076008170843124, "learning_rate": 0.00027, "loss": 0.0106, "step": 515 }, { "epoch": 0.26917057902973396, "grad_norm": 0.05983636528253555, "learning_rate": 0.00026944444444444444, "loss": 0.0271, "step": 516 }, { "epoch": 0.2696922274387063, "grad_norm": 0.05891017988324165, "learning_rate": 0.00026888888888888893, "loss": 0.0267, "step": 517 }, { "epoch": 0.27021387584767864, "grad_norm": 0.06906379759311676, "learning_rate": 0.0002683333333333333, "loss": 0.0268, "step": 518 }, { "epoch": 0.27073552425665104, "grad_norm": 0.07758453488349915, "learning_rate": 0.0002677777777777778, "loss": 0.0254, "step": 519 }, { "epoch": 0.2712571726656234, "grad_norm": 0.04410182312130928, "learning_rate": 0.00026722222222222224, "loss": 0.0206, "step": 520 }, { "epoch": 0.2717788210745957, "grad_norm": 0.04364776983857155, "learning_rate": 0.0002666666666666667, "loss": 0.0256, "step": 521 }, { "epoch": 0.27230046948356806, "grad_norm": 0.067947156727314, "learning_rate": 0.0002661111111111111, "loss": 0.0276, "step": 522 }, { "epoch": 0.2728221178925404, "grad_norm": 0.04528547078371048, "learning_rate": 0.00026555555555555555, "loss": 0.0243, "step": 523 }, { "epoch": 0.2733437663015128, "grad_norm": 0.06837579607963562, "learning_rate": 0.00026500000000000004, "loss": 0.0105, "step": 524 }, { "epoch": 0.27386541471048514, "grad_norm": 0.09349052608013153, "learning_rate": 0.00026444444444444443, "loss": 0.0316, "step": 525 }, { "epoch": 0.2743870631194575, "grad_norm": 0.04515364021062851, "learning_rate": 0.0002638888888888889, "loss": 0.0225, "step": 526 }, { "epoch": 0.2749087115284298, "grad_norm": 0.05468389391899109, "learning_rate": 0.0002633333333333333, "loss": 0.0158, "step": 527 }, { "epoch": 0.27543035993740217, "grad_norm": 0.058201421052217484, "learning_rate": 0.0002627777777777778, "loss": 0.0237, "step": 528 }, { "epoch": 0.27595200834637457, "grad_norm": 0.0540071465075016, "learning_rate": 0.00026222222222222223, "loss": 0.0256, "step": 529 }, { "epoch": 0.2764736567553469, "grad_norm": 0.05313161760568619, "learning_rate": 0.00026166666666666667, "loss": 0.0208, "step": 530 }, { "epoch": 0.27699530516431925, "grad_norm": 0.10889704525470734, "learning_rate": 0.00026111111111111116, "loss": 0.0329, "step": 531 }, { "epoch": 0.2775169535732916, "grad_norm": 0.04877515137195587, "learning_rate": 0.00026055555555555554, "loss": 0.0285, "step": 532 }, { "epoch": 0.27803860198226393, "grad_norm": 0.07354211062192917, "learning_rate": 0.00026000000000000003, "loss": 0.0326, "step": 533 }, { "epoch": 0.27856025039123633, "grad_norm": 0.04824311286211014, "learning_rate": 0.0002594444444444444, "loss": 0.0216, "step": 534 }, { "epoch": 0.27908189880020867, "grad_norm": 0.07306429743766785, "learning_rate": 0.0002588888888888889, "loss": 0.0265, "step": 535 }, { "epoch": 0.279603547209181, "grad_norm": 0.07081807404756546, "learning_rate": 0.00025833333333333334, "loss": 0.0131, "step": 536 }, { "epoch": 0.28012519561815336, "grad_norm": 0.06269505620002747, "learning_rate": 0.0002577777777777778, "loss": 0.0273, "step": 537 }, { "epoch": 0.2806468440271257, "grad_norm": 0.042418792843818665, "learning_rate": 0.00025722222222222227, "loss": 0.0251, "step": 538 }, { "epoch": 0.2811684924360981, "grad_norm": 0.0451393648982048, "learning_rate": 0.00025666666666666665, "loss": 0.0192, "step": 539 }, { "epoch": 0.28169014084507044, "grad_norm": 0.07902763038873672, "learning_rate": 0.00025611111111111114, "loss": 0.0156, "step": 540 }, { "epoch": 0.2822117892540428, "grad_norm": 0.046156350523233414, "learning_rate": 0.00025555555555555553, "loss": 0.0229, "step": 541 }, { "epoch": 0.2827334376630151, "grad_norm": 0.04461774230003357, "learning_rate": 0.000255, "loss": 0.0242, "step": 542 }, { "epoch": 0.28325508607198746, "grad_norm": 0.05216965079307556, "learning_rate": 0.0002544444444444444, "loss": 0.0198, "step": 543 }, { "epoch": 0.28377673448095986, "grad_norm": 0.07048270106315613, "learning_rate": 0.0002538888888888889, "loss": 0.0163, "step": 544 }, { "epoch": 0.2842983828899322, "grad_norm": 0.06380292773246765, "learning_rate": 0.0002533333333333334, "loss": 0.017, "step": 545 }, { "epoch": 0.28482003129890454, "grad_norm": 0.047167252749204636, "learning_rate": 0.00025277777777777777, "loss": 0.0236, "step": 546 }, { "epoch": 0.2853416797078769, "grad_norm": 0.0429813452064991, "learning_rate": 0.00025222222222222226, "loss": 0.0271, "step": 547 }, { "epoch": 0.2858633281168492, "grad_norm": 0.11126257479190826, "learning_rate": 0.00025166666666666664, "loss": 0.0342, "step": 548 }, { "epoch": 0.2863849765258216, "grad_norm": 0.03414067253470421, "learning_rate": 0.00025111111111111113, "loss": 0.0181, "step": 549 }, { "epoch": 0.28690662493479396, "grad_norm": 0.04244649410247803, "learning_rate": 0.0002505555555555555, "loss": 0.0214, "step": 550 }, { "epoch": 0.2874282733437663, "grad_norm": 0.06161463260650635, "learning_rate": 0.00025, "loss": 0.0161, "step": 551 }, { "epoch": 0.28794992175273865, "grad_norm": 0.042669475078582764, "learning_rate": 0.00024944444444444444, "loss": 0.0248, "step": 552 }, { "epoch": 0.288471570161711, "grad_norm": 0.08395751565694809, "learning_rate": 0.0002488888888888889, "loss": 0.0305, "step": 553 }, { "epoch": 0.2889932185706834, "grad_norm": 0.038790151476860046, "learning_rate": 0.0002483333333333333, "loss": 0.0249, "step": 554 }, { "epoch": 0.2895148669796557, "grad_norm": 0.04883798584342003, "learning_rate": 0.0002477777777777778, "loss": 0.0267, "step": 555 }, { "epoch": 0.29003651538862807, "grad_norm": 0.056415002793073654, "learning_rate": 0.00024722222222222224, "loss": 0.0204, "step": 556 }, { "epoch": 0.2905581637976004, "grad_norm": 0.06406931579113007, "learning_rate": 0.0002466666666666667, "loss": 0.0164, "step": 557 }, { "epoch": 0.29107981220657275, "grad_norm": 0.06549858301877975, "learning_rate": 0.0002461111111111111, "loss": 0.0259, "step": 558 }, { "epoch": 0.29160146061554515, "grad_norm": 0.05236493796110153, "learning_rate": 0.00024555555555555556, "loss": 0.0182, "step": 559 }, { "epoch": 0.2921231090245175, "grad_norm": 0.05339088663458824, "learning_rate": 0.000245, "loss": 0.0231, "step": 560 }, { "epoch": 0.29264475743348983, "grad_norm": 0.052736297249794006, "learning_rate": 0.00024444444444444443, "loss": 0.0108, "step": 561 }, { "epoch": 0.2931664058424622, "grad_norm": 0.03991522639989853, "learning_rate": 0.0002438888888888889, "loss": 0.0135, "step": 562 }, { "epoch": 0.2936880542514345, "grad_norm": 0.053174279630184174, "learning_rate": 0.00024333333333333336, "loss": 0.0222, "step": 563 }, { "epoch": 0.2942097026604069, "grad_norm": 0.07549899816513062, "learning_rate": 0.0002427777777777778, "loss": 0.0236, "step": 564 }, { "epoch": 0.29473135106937925, "grad_norm": 0.04507315158843994, "learning_rate": 0.00024222222222222223, "loss": 0.0219, "step": 565 }, { "epoch": 0.2952529994783516, "grad_norm": 0.05438590794801712, "learning_rate": 0.00024166666666666667, "loss": 0.0135, "step": 566 }, { "epoch": 0.29577464788732394, "grad_norm": 0.04266679286956787, "learning_rate": 0.0002411111111111111, "loss": 0.0125, "step": 567 }, { "epoch": 0.2962962962962963, "grad_norm": 0.08215553313493729, "learning_rate": 0.00024055555555555554, "loss": 0.0296, "step": 568 }, { "epoch": 0.2968179447052686, "grad_norm": 0.13914398849010468, "learning_rate": 0.00024, "loss": 0.0346, "step": 569 }, { "epoch": 0.297339593114241, "grad_norm": 0.035860706120729446, "learning_rate": 0.00023944444444444444, "loss": 0.0145, "step": 570 }, { "epoch": 0.29786124152321336, "grad_norm": 0.038400448858737946, "learning_rate": 0.0002388888888888889, "loss": 0.024, "step": 571 }, { "epoch": 0.2983828899321857, "grad_norm": 0.07077977806329727, "learning_rate": 0.00023833333333333334, "loss": 0.0293, "step": 572 }, { "epoch": 0.29890453834115804, "grad_norm": 0.05618384853005409, "learning_rate": 0.00023777777777777778, "loss": 0.0268, "step": 573 }, { "epoch": 0.2994261867501304, "grad_norm": 0.041202716529369354, "learning_rate": 0.00023722222222222222, "loss": 0.0191, "step": 574 }, { "epoch": 0.2999478351591028, "grad_norm": 0.06533535569906235, "learning_rate": 0.00023666666666666668, "loss": 0.0253, "step": 575 }, { "epoch": 0.3004694835680751, "grad_norm": 0.04670009762048721, "learning_rate": 0.00023611111111111112, "loss": 0.0257, "step": 576 }, { "epoch": 0.30099113197704747, "grad_norm": 0.039087213575839996, "learning_rate": 0.00023555555555555556, "loss": 0.025, "step": 577 }, { "epoch": 0.3015127803860198, "grad_norm": 0.06907133758068085, "learning_rate": 0.000235, "loss": 0.024, "step": 578 }, { "epoch": 0.30203442879499215, "grad_norm": 0.0662020891904831, "learning_rate": 0.00023444444444444446, "loss": 0.0235, "step": 579 }, { "epoch": 0.30255607720396455, "grad_norm": 0.03638078272342682, "learning_rate": 0.0002338888888888889, "loss": 0.0193, "step": 580 }, { "epoch": 0.3030777256129369, "grad_norm": 0.05564034357666969, "learning_rate": 0.00023333333333333333, "loss": 0.0164, "step": 581 }, { "epoch": 0.30359937402190923, "grad_norm": 0.08538271486759186, "learning_rate": 0.0002327777777777778, "loss": 0.0109, "step": 582 }, { "epoch": 0.30412102243088157, "grad_norm": 0.06491502374410629, "learning_rate": 0.00023222222222222223, "loss": 0.03, "step": 583 }, { "epoch": 0.3046426708398539, "grad_norm": 0.051391441375017166, "learning_rate": 0.00023166666666666667, "loss": 0.0239, "step": 584 }, { "epoch": 0.3051643192488263, "grad_norm": 0.041383545845746994, "learning_rate": 0.0002311111111111111, "loss": 0.0235, "step": 585 }, { "epoch": 0.30568596765779865, "grad_norm": 0.06924084573984146, "learning_rate": 0.00023055555555555557, "loss": 0.0278, "step": 586 }, { "epoch": 0.306207616066771, "grad_norm": 0.04862818121910095, "learning_rate": 0.00023, "loss": 0.0102, "step": 587 }, { "epoch": 0.30672926447574334, "grad_norm": 0.041307900100946426, "learning_rate": 0.00022944444444444444, "loss": 0.024, "step": 588 }, { "epoch": 0.3072509128847157, "grad_norm": 0.06442257761955261, "learning_rate": 0.0002288888888888889, "loss": 0.0247, "step": 589 }, { "epoch": 0.3077725612936881, "grad_norm": 0.0453709252178669, "learning_rate": 0.00022833333333333334, "loss": 0.0184, "step": 590 }, { "epoch": 0.3082942097026604, "grad_norm": 0.08471877872943878, "learning_rate": 0.00022777777777777778, "loss": 0.0319, "step": 591 }, { "epoch": 0.30881585811163276, "grad_norm": 0.0712469220161438, "learning_rate": 0.00022722222222222222, "loss": 0.0281, "step": 592 }, { "epoch": 0.3093375065206051, "grad_norm": 0.0397157222032547, "learning_rate": 0.00022666666666666666, "loss": 0.024, "step": 593 }, { "epoch": 0.30985915492957744, "grad_norm": 0.03950037062168121, "learning_rate": 0.00022611111111111112, "loss": 0.0239, "step": 594 }, { "epoch": 0.31038080333854984, "grad_norm": 0.05540947616100311, "learning_rate": 0.00022555555555555556, "loss": 0.0261, "step": 595 }, { "epoch": 0.3109024517475222, "grad_norm": 0.06277068704366684, "learning_rate": 0.00022500000000000002, "loss": 0.0172, "step": 596 }, { "epoch": 0.3114241001564945, "grad_norm": 0.06810203939676285, "learning_rate": 0.00022444444444444446, "loss": 0.0234, "step": 597 }, { "epoch": 0.31194574856546686, "grad_norm": 0.03866199776530266, "learning_rate": 0.0002238888888888889, "loss": 0.0246, "step": 598 }, { "epoch": 0.3124673969744392, "grad_norm": 0.034964367747306824, "learning_rate": 0.00022333333333333333, "loss": 0.0221, "step": 599 }, { "epoch": 0.3129890453834116, "grad_norm": 0.045828189700841904, "learning_rate": 0.00022277777777777777, "loss": 0.0222, "step": 600 }, { "epoch": 0.31351069379238394, "grad_norm": 0.038094017654657364, "learning_rate": 0.0002222222222222222, "loss": 0.0201, "step": 601 }, { "epoch": 0.3140323422013563, "grad_norm": 0.09865216165781021, "learning_rate": 0.00022166666666666667, "loss": 0.0313, "step": 602 }, { "epoch": 0.3145539906103286, "grad_norm": 0.03507848456501961, "learning_rate": 0.00022111111111111113, "loss": 0.0213, "step": 603 }, { "epoch": 0.31507563901930097, "grad_norm": 0.07374833524227142, "learning_rate": 0.00022055555555555557, "loss": 0.0289, "step": 604 }, { "epoch": 0.31559728742827337, "grad_norm": 0.06977537274360657, "learning_rate": 0.00022, "loss": 0.0158, "step": 605 }, { "epoch": 0.3161189358372457, "grad_norm": 0.07651909440755844, "learning_rate": 0.00021944444444444444, "loss": 0.0158, "step": 606 }, { "epoch": 0.31664058424621805, "grad_norm": 0.05928812175989151, "learning_rate": 0.00021888888888888888, "loss": 0.0128, "step": 607 }, { "epoch": 0.3171622326551904, "grad_norm": 0.047975439578294754, "learning_rate": 0.00021833333333333332, "loss": 0.0219, "step": 608 }, { "epoch": 0.31768388106416273, "grad_norm": 0.036830369383096695, "learning_rate": 0.00021777777777777776, "loss": 0.0187, "step": 609 }, { "epoch": 0.31820552947313513, "grad_norm": 0.03662344813346863, "learning_rate": 0.00021722222222222225, "loss": 0.0212, "step": 610 }, { "epoch": 0.31872717788210747, "grad_norm": 0.038968924432992935, "learning_rate": 0.00021666666666666668, "loss": 0.0229, "step": 611 }, { "epoch": 0.3192488262910798, "grad_norm": 0.03521070256829262, "learning_rate": 0.00021611111111111112, "loss": 0.0223, "step": 612 }, { "epoch": 0.31977047470005215, "grad_norm": 0.05176553502678871, "learning_rate": 0.00021555555555555556, "loss": 0.0156, "step": 613 }, { "epoch": 0.3202921231090245, "grad_norm": 0.07710260897874832, "learning_rate": 0.000215, "loss": 0.0256, "step": 614 }, { "epoch": 0.3208137715179969, "grad_norm": 0.044599100947380066, "learning_rate": 0.00021444444444444443, "loss": 0.0144, "step": 615 }, { "epoch": 0.32133541992696923, "grad_norm": 0.04929358512163162, "learning_rate": 0.0002138888888888889, "loss": 0.0256, "step": 616 }, { "epoch": 0.3218570683359416, "grad_norm": 0.04041970521211624, "learning_rate": 0.00021333333333333336, "loss": 0.0257, "step": 617 }, { "epoch": 0.3223787167449139, "grad_norm": 0.09948903322219849, "learning_rate": 0.0002127777777777778, "loss": 0.0284, "step": 618 }, { "epoch": 0.32290036515388626, "grad_norm": 0.08420311659574509, "learning_rate": 0.00021222222222222223, "loss": 0.0271, "step": 619 }, { "epoch": 0.32342201356285866, "grad_norm": 0.05317756533622742, "learning_rate": 0.00021166666666666667, "loss": 0.0106, "step": 620 }, { "epoch": 0.323943661971831, "grad_norm": 0.08581392467021942, "learning_rate": 0.0002111111111111111, "loss": 0.0241, "step": 621 }, { "epoch": 0.32446531038080334, "grad_norm": 0.04383018612861633, "learning_rate": 0.00021055555555555554, "loss": 0.0216, "step": 622 }, { "epoch": 0.3249869587897757, "grad_norm": 0.04261196032166481, "learning_rate": 0.00021, "loss": 0.0242, "step": 623 }, { "epoch": 0.325508607198748, "grad_norm": 0.06482464075088501, "learning_rate": 0.00020944444444444445, "loss": 0.0251, "step": 624 }, { "epoch": 0.3260302556077204, "grad_norm": 0.045221809297800064, "learning_rate": 0.0002088888888888889, "loss": 0.0213, "step": 625 }, { "epoch": 0.32655190401669276, "grad_norm": 0.07963284850120544, "learning_rate": 0.00020833333333333335, "loss": 0.0312, "step": 626 }, { "epoch": 0.3270735524256651, "grad_norm": 0.11016980558633804, "learning_rate": 0.00020777777777777778, "loss": 0.0333, "step": 627 }, { "epoch": 0.32759520083463745, "grad_norm": 0.038222573697566986, "learning_rate": 0.00020722222222222222, "loss": 0.0224, "step": 628 }, { "epoch": 0.3281168492436098, "grad_norm": 0.05089324340224266, "learning_rate": 0.00020666666666666666, "loss": 0.0242, "step": 629 }, { "epoch": 0.3286384976525822, "grad_norm": 0.05707726627588272, "learning_rate": 0.00020611111111111112, "loss": 0.024, "step": 630 }, { "epoch": 0.3291601460615545, "grad_norm": 0.04010495916008949, "learning_rate": 0.00020555555555555556, "loss": 0.0236, "step": 631 }, { "epoch": 0.32968179447052687, "grad_norm": 0.03976452723145485, "learning_rate": 0.000205, "loss": 0.0213, "step": 632 }, { "epoch": 0.3302034428794992, "grad_norm": 0.042373333126306534, "learning_rate": 0.00020444444444444446, "loss": 0.0283, "step": 633 }, { "epoch": 0.33072509128847155, "grad_norm": 0.06429338455200195, "learning_rate": 0.0002038888888888889, "loss": 0.0165, "step": 634 }, { "epoch": 0.33124673969744395, "grad_norm": 0.03952011466026306, "learning_rate": 0.00020333333333333333, "loss": 0.0237, "step": 635 }, { "epoch": 0.3317683881064163, "grad_norm": 0.061460334807634354, "learning_rate": 0.00020277777777777777, "loss": 0.0177, "step": 636 }, { "epoch": 0.33229003651538863, "grad_norm": 0.05908782780170441, "learning_rate": 0.00020222222222222223, "loss": 0.0223, "step": 637 }, { "epoch": 0.332811684924361, "grad_norm": 0.04075014218688011, "learning_rate": 0.00020166666666666667, "loss": 0.013, "step": 638 }, { "epoch": 0.3333333333333333, "grad_norm": 0.04613792523741722, "learning_rate": 0.0002011111111111111, "loss": 0.0178, "step": 639 }, { "epoch": 0.3338549817423057, "grad_norm": 0.04457557201385498, "learning_rate": 0.00020055555555555555, "loss": 0.0139, "step": 640 }, { "epoch": 0.33437663015127805, "grad_norm": 0.04981216415762901, "learning_rate": 0.0002, "loss": 0.0213, "step": 641 }, { "epoch": 0.3348982785602504, "grad_norm": 0.04061228781938553, "learning_rate": 0.00019944444444444445, "loss": 0.0224, "step": 642 }, { "epoch": 0.33541992696922274, "grad_norm": 0.0416584387421608, "learning_rate": 0.00019888888888888888, "loss": 0.024, "step": 643 }, { "epoch": 0.3359415753781951, "grad_norm": 0.06171800196170807, "learning_rate": 0.00019833333333333335, "loss": 0.0148, "step": 644 }, { "epoch": 0.3364632237871675, "grad_norm": 0.03681602329015732, "learning_rate": 0.00019777777777777778, "loss": 0.0177, "step": 645 }, { "epoch": 0.3369848721961398, "grad_norm": 0.03308926522731781, "learning_rate": 0.00019722222222222222, "loss": 0.0181, "step": 646 }, { "epoch": 0.33750652060511216, "grad_norm": 0.04177209734916687, "learning_rate": 0.00019666666666666666, "loss": 0.0284, "step": 647 }, { "epoch": 0.3380281690140845, "grad_norm": 0.04754487797617912, "learning_rate": 0.00019611111111111112, "loss": 0.0187, "step": 648 }, { "epoch": 0.33854981742305684, "grad_norm": 0.042892929166555405, "learning_rate": 0.00019555555555555556, "loss": 0.0273, "step": 649 }, { "epoch": 0.33907146583202924, "grad_norm": 0.04137077182531357, "learning_rate": 0.00019500000000000002, "loss": 0.0134, "step": 650 }, { "epoch": 0.3395931142410016, "grad_norm": 0.04692915827035904, "learning_rate": 0.00019444444444444446, "loss": 0.0212, "step": 651 }, { "epoch": 0.3401147626499739, "grad_norm": 0.038703177124261856, "learning_rate": 0.0001938888888888889, "loss": 0.021, "step": 652 }, { "epoch": 0.34063641105894626, "grad_norm": 0.03845067694783211, "learning_rate": 0.00019333333333333333, "loss": 0.0173, "step": 653 }, { "epoch": 0.3411580594679186, "grad_norm": 0.0640154704451561, "learning_rate": 0.00019277777777777777, "loss": 0.0095, "step": 654 }, { "epoch": 0.34167970787689095, "grad_norm": 0.043140705674886703, "learning_rate": 0.0001922222222222222, "loss": 0.024, "step": 655 }, { "epoch": 0.34220135628586335, "grad_norm": 0.05687430500984192, "learning_rate": 0.00019166666666666667, "loss": 0.0254, "step": 656 }, { "epoch": 0.3427230046948357, "grad_norm": 0.07442109286785126, "learning_rate": 0.00019111111111111114, "loss": 0.0281, "step": 657 }, { "epoch": 0.34324465310380803, "grad_norm": 0.04823756590485573, "learning_rate": 0.00019055555555555557, "loss": 0.0232, "step": 658 }, { "epoch": 0.34376630151278037, "grad_norm": 0.04826001450419426, "learning_rate": 0.00019, "loss": 0.0203, "step": 659 }, { "epoch": 0.3442879499217527, "grad_norm": 0.044953636825084686, "learning_rate": 0.00018944444444444445, "loss": 0.0226, "step": 660 }, { "epoch": 0.3448095983307251, "grad_norm": 0.0559956319630146, "learning_rate": 0.00018888888888888888, "loss": 0.0231, "step": 661 }, { "epoch": 0.34533124673969745, "grad_norm": 0.07470231503248215, "learning_rate": 0.00018833333333333332, "loss": 0.0241, "step": 662 }, { "epoch": 0.3458528951486698, "grad_norm": 0.044720359146595, "learning_rate": 0.00018777777777777776, "loss": 0.0098, "step": 663 }, { "epoch": 0.34637454355764213, "grad_norm": 0.027653418481349945, "learning_rate": 0.00018722222222222225, "loss": 0.0148, "step": 664 }, { "epoch": 0.3468961919666145, "grad_norm": 0.10543134808540344, "learning_rate": 0.0001866666666666667, "loss": 0.0332, "step": 665 }, { "epoch": 0.3474178403755869, "grad_norm": 0.031183289363980293, "learning_rate": 0.00018611111111111112, "loss": 0.0213, "step": 666 }, { "epoch": 0.3479394887845592, "grad_norm": 0.09472862631082535, "learning_rate": 0.00018555555555555556, "loss": 0.0234, "step": 667 }, { "epoch": 0.34846113719353156, "grad_norm": 0.08138673007488251, "learning_rate": 0.000185, "loss": 0.0294, "step": 668 }, { "epoch": 0.3489827856025039, "grad_norm": 0.07677923887968063, "learning_rate": 0.00018444444444444443, "loss": 0.0147, "step": 669 }, { "epoch": 0.34950443401147624, "grad_norm": 0.11338996142148972, "learning_rate": 0.00018388888888888887, "loss": 0.0339, "step": 670 }, { "epoch": 0.35002608242044864, "grad_norm": 0.05841991677880287, "learning_rate": 0.00018333333333333334, "loss": 0.0283, "step": 671 }, { "epoch": 0.350547730829421, "grad_norm": 0.06760915368795395, "learning_rate": 0.0001827777777777778, "loss": 0.0295, "step": 672 }, { "epoch": 0.3510693792383933, "grad_norm": 0.042751237750053406, "learning_rate": 0.00018222222222222224, "loss": 0.0161, "step": 673 }, { "epoch": 0.35159102764736566, "grad_norm": 0.06219693645834923, "learning_rate": 0.00018166666666666667, "loss": 0.014, "step": 674 }, { "epoch": 0.352112676056338, "grad_norm": 0.03916552662849426, "learning_rate": 0.0001811111111111111, "loss": 0.0255, "step": 675 }, { "epoch": 0.3526343244653104, "grad_norm": 0.04349285736680031, "learning_rate": 0.00018055555555555555, "loss": 0.0212, "step": 676 }, { "epoch": 0.35315597287428274, "grad_norm": 0.04847508296370506, "learning_rate": 0.00017999999999999998, "loss": 0.0109, "step": 677 }, { "epoch": 0.3536776212832551, "grad_norm": 0.07422209531068802, "learning_rate": 0.00017944444444444445, "loss": 0.0222, "step": 678 }, { "epoch": 0.3541992696922274, "grad_norm": 0.040487054735422134, "learning_rate": 0.00017888888888888889, "loss": 0.0175, "step": 679 }, { "epoch": 0.35472091810119977, "grad_norm": 0.039799537509679794, "learning_rate": 0.00017833333333333335, "loss": 0.0203, "step": 680 }, { "epoch": 0.35524256651017216, "grad_norm": 0.04392382130026817, "learning_rate": 0.00017777777777777779, "loss": 0.0184, "step": 681 }, { "epoch": 0.3557642149191445, "grad_norm": 0.03797397017478943, "learning_rate": 0.00017722222222222222, "loss": 0.0232, "step": 682 }, { "epoch": 0.35628586332811685, "grad_norm": 0.04700712487101555, "learning_rate": 0.00017666666666666666, "loss": 0.0165, "step": 683 }, { "epoch": 0.3568075117370892, "grad_norm": 0.03243011608719826, "learning_rate": 0.00017611111111111112, "loss": 0.0196, "step": 684 }, { "epoch": 0.35732916014606153, "grad_norm": 0.03285043686628342, "learning_rate": 0.00017555555555555556, "loss": 0.0207, "step": 685 }, { "epoch": 0.35785080855503393, "grad_norm": 0.0681452751159668, "learning_rate": 0.000175, "loss": 0.0273, "step": 686 }, { "epoch": 0.35837245696400627, "grad_norm": 0.05350063368678093, "learning_rate": 0.00017444444444444446, "loss": 0.0218, "step": 687 }, { "epoch": 0.3588941053729786, "grad_norm": 0.05729454755783081, "learning_rate": 0.0001738888888888889, "loss": 0.0245, "step": 688 }, { "epoch": 0.35941575378195095, "grad_norm": 0.04530972242355347, "learning_rate": 0.00017333333333333334, "loss": 0.0211, "step": 689 }, { "epoch": 0.3599374021909233, "grad_norm": 0.029124662280082703, "learning_rate": 0.00017277777777777777, "loss": 0.0189, "step": 690 }, { "epoch": 0.3604590505998957, "grad_norm": 0.023517435416579247, "learning_rate": 0.00017222222222222224, "loss": 0.0136, "step": 691 }, { "epoch": 0.36098069900886803, "grad_norm": 0.03519543632864952, "learning_rate": 0.00017166666666666667, "loss": 0.0148, "step": 692 }, { "epoch": 0.3615023474178404, "grad_norm": 0.05330968275666237, "learning_rate": 0.0001711111111111111, "loss": 0.0149, "step": 693 }, { "epoch": 0.3620239958268127, "grad_norm": 0.03034808114171028, "learning_rate": 0.00017055555555555555, "loss": 0.0198, "step": 694 }, { "epoch": 0.36254564423578506, "grad_norm": 0.04207657277584076, "learning_rate": 0.00017, "loss": 0.0244, "step": 695 }, { "epoch": 0.36306729264475746, "grad_norm": 0.0516652911901474, "learning_rate": 0.00016944444444444445, "loss": 0.0209, "step": 696 }, { "epoch": 0.3635889410537298, "grad_norm": 0.07596902549266815, "learning_rate": 0.00016888888888888889, "loss": 0.0286, "step": 697 }, { "epoch": 0.36411058946270214, "grad_norm": 0.042746830731630325, "learning_rate": 0.00016833333333333335, "loss": 0.0149, "step": 698 }, { "epoch": 0.3646322378716745, "grad_norm": 0.0824197307229042, "learning_rate": 0.0001677777777777778, "loss": 0.0271, "step": 699 }, { "epoch": 0.3651538862806468, "grad_norm": 0.0710834488272667, "learning_rate": 0.00016722222222222222, "loss": 0.0243, "step": 700 } ], "logging_steps": 1, "max_steps": 1000, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 0.0, "train_batch_size": 512, "trial_name": null, "trial_params": null }