{
  "best_global_step": 10500,
  "best_metric": 2.502063751220703,
  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/HuggingFaceTB/SmolLM2-360M/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_61/checkpoint-10500",
  "epoch": 0.22,
  "eval_steps": 100,
  "global_step": 11000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005,
      "grad_norm": 7.414668730380984,
      "learning_rate": 4.8e-08,
      "loss": 2.58,
      "step": 25
    },
    {
      "epoch": 0.001,
      "grad_norm": 9.160375364793794,
      "learning_rate": 9.8e-08,
      "loss": 2.5669,
      "step": 50
    },
    {
      "epoch": 0.0015,
      "grad_norm": 9.022014619463027,
      "learning_rate": 1.4800000000000003e-07,
      "loss": 2.5685,
      "step": 75
    },
    {
      "epoch": 0.002,
      "grad_norm": 8.08180658385987,
      "learning_rate": 1.9800000000000003e-07,
      "loss": 2.574,
      "step": 100
    },
    {
      "epoch": 0.002,
      "eval_loss": 2.5819575786590576,
      "eval_runtime": 31.3642,
      "eval_samples_per_second": 3.38,
      "eval_steps_per_second": 0.861,
      "step": 100
    },
    {
      "epoch": 0.0025,
      "grad_norm": 8.148585386546005,
      "learning_rate": 2.48e-07,
      "loss": 2.559,
      "step": 125
    },
    {
      "epoch": 0.003,
      "grad_norm": 8.48517035589218,
      "learning_rate": 2.9800000000000005e-07,
      "loss": 2.5705,
      "step": 150
    },
    {
      "epoch": 0.0035,
      "grad_norm": 7.4647297827229675,
      "learning_rate": 3.48e-07,
      "loss": 2.5569,
      "step": 175
    },
    {
      "epoch": 0.004,
      "grad_norm": 7.5892309502710456,
      "learning_rate": 3.9800000000000004e-07,
      "loss": 2.5654,
      "step": 200
    },
    {
      "epoch": 0.004,
      "eval_loss": 2.5757665634155273,
      "eval_runtime": 31.4592,
      "eval_samples_per_second": 3.369,
      "eval_steps_per_second": 0.858,
      "step": 200
    },
    {
      "epoch": 0.0045,
      "grad_norm": 8.513594577252011,
      "learning_rate": 4.4800000000000004e-07,
      "loss": 2.5702,
      "step": 225
    },
    {
      "epoch": 0.005,
      "grad_norm": 7.36618260817592,
      "learning_rate": 4.98e-07,
      "loss": 2.5616,
      "step": 250
    },
    {
      "epoch": 0.0055,
      "grad_norm": 7.979652660110063,
      "learning_rate": 5.480000000000001e-07,
      "loss": 2.5724,
      "step": 275
    },
    {
      "epoch": 0.006,
      "grad_norm": 8.286710116248681,
      "learning_rate": 5.98e-07,
      "loss": 2.5645,
      "step": 300
    },
    {
      "epoch": 0.006,
      "eval_loss": 2.573997735977173,
      "eval_runtime": 31.4489,
      "eval_samples_per_second": 3.371,
      "eval_steps_per_second": 0.859,
      "step": 300
    },
    {
      "epoch": 0.0065,
      "grad_norm": 7.793115280849132,
      "learning_rate": 6.48e-07,
      "loss": 2.5561,
      "step": 325
    },
    {
      "epoch": 0.007,
      "grad_norm": 7.4565249755148395,
      "learning_rate": 6.98e-07,
      "loss": 2.5559,
      "step": 350
    },
    {
      "epoch": 0.0075,
      "grad_norm": 7.162170017009099,
      "learning_rate": 7.480000000000001e-07,
      "loss": 2.5606,
      "step": 375
    },
    {
      "epoch": 0.008,
      "grad_norm": 7.634262924490496,
      "learning_rate": 7.98e-07,
      "loss": 2.5584,
      "step": 400
    },
    {
      "epoch": 0.008,
      "eval_loss": 2.571639060974121,
      "eval_runtime": 31.4335,
      "eval_samples_per_second": 3.372,
      "eval_steps_per_second": 0.859,
      "step": 400
    },
    {
      "epoch": 0.0085,
      "grad_norm": 6.741882313360166,
      "learning_rate": 8.480000000000001e-07,
      "loss": 2.5489,
      "step": 425
    },
    {
      "epoch": 0.009,
      "grad_norm": 7.0353863053832875,
      "learning_rate": 8.980000000000001e-07,
      "loss": 2.5607,
      "step": 450
    },
    {
      "epoch": 0.0095,
      "grad_norm": 6.545029332470873,
      "learning_rate": 9.480000000000001e-07,
      "loss": 2.5606,
      "step": 475
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.856492237540935,
      "learning_rate": 9.98e-07,
      "loss": 2.5558,
      "step": 500
    },
    {
      "epoch": 0.01,
      "eval_loss": 2.568985939025879,
      "eval_runtime": 31.4693,
      "eval_samples_per_second": 3.368,
      "eval_steps_per_second": 0.858,
      "step": 500
    },
    {
      "epoch": 0.0105,
      "grad_norm": 6.010839203358671,
      "learning_rate": 1.0480000000000002e-06,
      "loss": 2.5606,
      "step": 525
    },
    {
      "epoch": 0.011,
      "grad_norm": 5.622365258702099,
      "learning_rate": 1.0980000000000001e-06,
      "loss": 2.5663,
      "step": 550
    },
    {
      "epoch": 0.0115,
      "grad_norm": 4.998479332021628,
      "learning_rate": 1.148e-06,
      "loss": 2.5498,
      "step": 575
    },
    {
      "epoch": 0.012,
      "grad_norm": 4.938142978417324,
      "learning_rate": 1.1980000000000002e-06,
      "loss": 2.5522,
      "step": 600
    },
    {
      "epoch": 0.012,
      "eval_loss": 2.5657429695129395,
      "eval_runtime": 31.567,
      "eval_samples_per_second": 3.358,
      "eval_steps_per_second": 0.855,
      "step": 600
    },
    {
      "epoch": 0.0125,
      "grad_norm": 4.643553586272799,
      "learning_rate": 1.248e-06,
      "loss": 2.562,
      "step": 625
    },
    {
      "epoch": 0.013,
      "grad_norm": 4.370764832622782,
      "learning_rate": 1.2980000000000001e-06,
      "loss": 2.5524,
      "step": 650
    },
    {
      "epoch": 0.0135,
      "grad_norm": 4.4782950314103624,
      "learning_rate": 1.348e-06,
      "loss": 2.5461,
      "step": 675
    },
    {
      "epoch": 0.014,
      "grad_norm": 3.88097541690361,
      "learning_rate": 1.3980000000000002e-06,
      "loss": 2.5589,
      "step": 700
    },
    {
      "epoch": 0.014,
      "eval_loss": 2.5625,
      "eval_runtime": 31.6097,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 700
    },
    {
      "epoch": 0.0145,
      "grad_norm": 4.6364438893944415,
      "learning_rate": 1.4480000000000002e-06,
      "loss": 2.544,
      "step": 725
    },
    {
      "epoch": 0.015,
      "grad_norm": 4.087341405976335,
      "learning_rate": 1.498e-06,
      "loss": 2.544,
      "step": 750
    },
    {
      "epoch": 0.0155,
      "grad_norm": 5.895841058437022,
      "learning_rate": 1.548e-06,
      "loss": 2.5425,
      "step": 775
    },
    {
      "epoch": 0.016,
      "grad_norm": 4.993061404246151,
      "learning_rate": 1.5980000000000002e-06,
      "loss": 2.5487,
      "step": 800
    },
    {
      "epoch": 0.016,
      "eval_loss": 2.561025857925415,
      "eval_runtime": 31.518,
      "eval_samples_per_second": 3.363,
      "eval_steps_per_second": 0.857,
      "step": 800
    },
    {
      "epoch": 0.0165,
      "grad_norm": 8.716353678903719,
      "learning_rate": 1.6480000000000001e-06,
      "loss": 2.5416,
      "step": 825
    },
    {
      "epoch": 0.017,
      "grad_norm": 5.529513150034155,
      "learning_rate": 1.6980000000000003e-06,
      "loss": 2.5524,
      "step": 850
    },
    {
      "epoch": 0.0175,
      "grad_norm": 3.5181432936318693,
      "learning_rate": 1.7480000000000002e-06,
      "loss": 2.5316,
      "step": 875
    },
    {
      "epoch": 0.018,
      "grad_norm": 3.6272596212263326,
      "learning_rate": 1.798e-06,
      "loss": 2.5482,
      "step": 900
    },
    {
      "epoch": 0.018,
      "eval_loss": 2.561025857925415,
      "eval_runtime": 31.5635,
      "eval_samples_per_second": 3.358,
      "eval_steps_per_second": 0.855,
      "step": 900
    },
    {
      "epoch": 0.0185,
      "grad_norm": 3.4634269778278206,
      "learning_rate": 1.8480000000000001e-06,
      "loss": 2.5437,
      "step": 925
    },
    {
      "epoch": 0.019,
      "grad_norm": 3.2744959130191753,
      "learning_rate": 1.898e-06,
      "loss": 2.5373,
      "step": 950
    },
    {
      "epoch": 0.0195,
      "grad_norm": 4.866747798407841,
      "learning_rate": 1.9480000000000002e-06,
      "loss": 2.5481,
      "step": 975
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.493920664330759,
      "learning_rate": 1.998e-06,
      "loss": 2.5572,
      "step": 1000
    },
    {
      "epoch": 0.02,
      "eval_loss": 2.558077812194824,
      "eval_runtime": 32.5314,
      "eval_samples_per_second": 3.258,
      "eval_steps_per_second": 0.83,
      "step": 1000
    },
    {
      "epoch": 0.0205,
      "grad_norm": 3.4376334682400023,
      "learning_rate": 2.048e-06,
      "loss": 2.5467,
      "step": 1025
    },
    {
      "epoch": 0.021,
      "grad_norm": 5.716848161977786,
      "learning_rate": 2.098e-06,
      "loss": 2.5453,
      "step": 1050
    },
    {
      "epoch": 0.0215,
      "grad_norm": 2.427114399660508,
      "learning_rate": 2.148e-06,
      "loss": 2.5587,
      "step": 1075
    },
    {
      "epoch": 0.022,
      "grad_norm": 2.841648670814877,
      "learning_rate": 2.198e-06,
      "loss": 2.5391,
      "step": 1100
    },
    {
      "epoch": 0.022,
      "eval_loss": 2.5557193756103516,
      "eval_runtime": 31.5806,
      "eval_samples_per_second": 3.356,
      "eval_steps_per_second": 0.855,
      "step": 1100
    },
    {
      "epoch": 0.0225,
      "grad_norm": 2.7671559538325217,
      "learning_rate": 2.2480000000000003e-06,
      "loss": 2.5473,
      "step": 1125
    },
    {
      "epoch": 0.023,
      "grad_norm": 2.762586633385912,
      "learning_rate": 2.2980000000000003e-06,
      "loss": 2.5266,
      "step": 1150
    },
    {
      "epoch": 0.0235,
      "grad_norm": 1.8996614708410953,
      "learning_rate": 2.3480000000000002e-06,
      "loss": 2.5383,
      "step": 1175
    },
    {
      "epoch": 0.024,
      "grad_norm": 2.757053334920087,
      "learning_rate": 2.398e-06,
      "loss": 2.5446,
      "step": 1200
    },
    {
      "epoch": 0.024,
      "eval_loss": 2.5548348426818848,
      "eval_runtime": 33.6988,
      "eval_samples_per_second": 3.146,
      "eval_steps_per_second": 0.801,
      "step": 1200
    },
    {
      "epoch": 0.0245,
      "grad_norm": 4.33045144646476,
      "learning_rate": 2.448e-06,
      "loss": 2.5483,
      "step": 1225
    },
    {
      "epoch": 0.025,
      "grad_norm": 3.138318361162452,
      "learning_rate": 2.498e-06,
      "loss": 2.5422,
      "step": 1250
    },
    {
      "epoch": 0.0255,
      "grad_norm": 2.2101804256377315,
      "learning_rate": 2.5480000000000004e-06,
      "loss": 2.5459,
      "step": 1275
    },
    {
      "epoch": 0.026,
      "grad_norm": 6.96587026664173,
      "learning_rate": 2.598e-06,
      "loss": 2.5482,
      "step": 1300
    },
    {
      "epoch": 0.026,
      "eval_loss": 2.5545401573181152,
      "eval_runtime": 33.7014,
      "eval_samples_per_second": 3.145,
      "eval_steps_per_second": 0.801,
      "step": 1300
    },
    {
      "epoch": 0.0265,
      "grad_norm": 3.7254283111121023,
      "learning_rate": 2.648e-06,
      "loss": 2.5358,
      "step": 1325
    },
    {
      "epoch": 0.027,
      "grad_norm": 5.786847124865984,
      "learning_rate": 2.6980000000000003e-06,
      "loss": 2.5522,
      "step": 1350
    },
    {
      "epoch": 0.0275,
      "grad_norm": 3.443648998727752,
      "learning_rate": 2.748e-06,
      "loss": 2.5485,
      "step": 1375
    },
    {
      "epoch": 0.028,
      "grad_norm": 2.8078549307686744,
      "learning_rate": 2.798e-06,
      "loss": 2.5449,
      "step": 1400
    },
    {
      "epoch": 0.028,
      "eval_loss": 2.5536556243896484,
      "eval_runtime": 33.6843,
      "eval_samples_per_second": 3.147,
      "eval_steps_per_second": 0.802,
      "step": 1400
    },
    {
      "epoch": 0.0285,
      "grad_norm": 2.2231663508054695,
      "learning_rate": 2.848e-06,
      "loss": 2.5429,
      "step": 1425
    },
    {
      "epoch": 0.029,
      "grad_norm": 2.017011692108824,
      "learning_rate": 2.8980000000000005e-06,
      "loss": 2.5358,
      "step": 1450
    },
    {
      "epoch": 0.0295,
      "grad_norm": 3.473206409631469,
      "learning_rate": 2.9480000000000004e-06,
      "loss": 2.5446,
      "step": 1475
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.9724966312793453,
      "learning_rate": 2.9980000000000003e-06,
      "loss": 2.5271,
      "step": 1500
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.5515918731689453,
      "eval_runtime": 33.4333,
      "eval_samples_per_second": 3.17,
      "eval_steps_per_second": 0.808,
      "step": 1500
    },
    {
      "epoch": 0.0305,
      "grad_norm": 3.794429177775492,
      "learning_rate": 3.0480000000000003e-06,
      "loss": 2.5373,
      "step": 1525
    },
    {
      "epoch": 0.031,
      "grad_norm": 3.541018772674368,
      "learning_rate": 3.0980000000000007e-06,
      "loss": 2.5428,
      "step": 1550
    },
    {
      "epoch": 0.0315,
      "grad_norm": 1.8297000018140448,
      "learning_rate": 3.1480000000000006e-06,
      "loss": 2.5461,
      "step": 1575
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.8847742274784853,
      "learning_rate": 3.198e-06,
      "loss": 2.5356,
      "step": 1600
    },
    {
      "epoch": 0.032,
      "eval_loss": 2.551297187805176,
      "eval_runtime": 31.7073,
      "eval_samples_per_second": 3.343,
      "eval_steps_per_second": 0.852,
      "step": 1600
    },
    {
      "epoch": 0.0325,
      "grad_norm": 2.0428744582128626,
      "learning_rate": 3.248e-06,
      "loss": 2.539,
      "step": 1625
    },
    {
      "epoch": 0.033,
      "grad_norm": 3.923062191693087,
      "learning_rate": 3.298e-06,
      "loss": 2.5451,
      "step": 1650
    },
    {
      "epoch": 0.0335,
      "grad_norm": 2.5701642609905475,
      "learning_rate": 3.348e-06,
      "loss": 2.5312,
      "step": 1675
    },
    {
      "epoch": 0.034,
      "grad_norm": 1.372625402655975,
      "learning_rate": 3.3980000000000003e-06,
      "loss": 2.5293,
      "step": 1700
    },
    {
      "epoch": 0.034,
      "eval_loss": 2.5492334365844727,
      "eval_runtime": 31.7196,
      "eval_samples_per_second": 3.342,
      "eval_steps_per_second": 0.851,
      "step": 1700
    },
    {
      "epoch": 0.0345,
      "grad_norm": 2.9992155036204764,
      "learning_rate": 3.4480000000000003e-06,
      "loss": 2.5471,
      "step": 1725
    },
    {
      "epoch": 0.035,
      "grad_norm": 7.065660583217205,
      "learning_rate": 3.4980000000000002e-06,
      "loss": 2.5254,
      "step": 1750
    },
    {
      "epoch": 0.0355,
      "grad_norm": 7.132721212830254,
      "learning_rate": 3.548e-06,
      "loss": 2.5413,
      "step": 1775
    },
    {
      "epoch": 0.036,
      "grad_norm": 2.530655358425179,
      "learning_rate": 3.5980000000000005e-06,
      "loss": 2.5387,
      "step": 1800
    },
    {
      "epoch": 0.036,
      "eval_loss": 2.547759532928467,
      "eval_runtime": 31.5128,
      "eval_samples_per_second": 3.364,
      "eval_steps_per_second": 0.857,
      "step": 1800
    },
    {
      "epoch": 0.0365,
      "grad_norm": 3.2608379101064826,
      "learning_rate": 3.6480000000000005e-06,
      "loss": 2.5403,
      "step": 1825
    },
    {
      "epoch": 0.037,
      "grad_norm": 57.229529386597854,
      "learning_rate": 3.6980000000000004e-06,
      "loss": 2.5343,
      "step": 1850
    },
    {
      "epoch": 0.0375,
      "grad_norm": 13.211892844738115,
      "learning_rate": 3.7480000000000004e-06,
      "loss": 2.5293,
      "step": 1875
    },
    {
      "epoch": 0.038,
      "grad_norm": 21.43989601963285,
      "learning_rate": 3.7980000000000007e-06,
      "loss": 2.5426,
      "step": 1900
    },
    {
      "epoch": 0.038,
      "eval_loss": 2.5456957817077637,
      "eval_runtime": 31.6472,
      "eval_samples_per_second": 3.349,
      "eval_steps_per_second": 0.853,
      "step": 1900
    },
    {
      "epoch": 0.0385,
      "grad_norm": 9.895019592079299,
      "learning_rate": 3.848e-06,
      "loss": 2.5382,
      "step": 1925
    },
    {
      "epoch": 0.039,
      "grad_norm": 10.302555220341693,
      "learning_rate": 3.898e-06,
      "loss": 2.5218,
      "step": 1950
    },
    {
      "epoch": 0.0395,
      "grad_norm": 13.079667784859808,
      "learning_rate": 3.948e-06,
      "loss": 2.5297,
      "step": 1975
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.625926882991876,
      "learning_rate": 3.9980000000000005e-06,
      "loss": 2.5442,
      "step": 2000
    },
    {
      "epoch": 0.04,
      "eval_loss": 2.544811248779297,
      "eval_runtime": 31.7739,
      "eval_samples_per_second": 3.336,
      "eval_steps_per_second": 0.85,
      "step": 2000
    },
    {
      "epoch": 0.0405,
      "grad_norm": 5.046118481185164,
      "learning_rate": 4.048e-06,
      "loss": 2.5309,
      "step": 2025
    },
    {
      "epoch": 0.041,
      "grad_norm": 3.7507696805849324,
      "learning_rate": 4.098e-06,
      "loss": 2.5367,
      "step": 2050
    },
    {
      "epoch": 0.0415,
      "grad_norm": 2.16344700764137,
      "learning_rate": 4.148000000000001e-06,
      "loss": 2.5284,
      "step": 2075
    },
    {
      "epoch": 0.042,
      "grad_norm": 5.977563588437311,
      "learning_rate": 4.198e-06,
      "loss": 2.5364,
      "step": 2100
    },
    {
      "epoch": 0.042,
      "eval_loss": 2.543337345123291,
      "eval_runtime": 31.6423,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 2100
    },
    {
      "epoch": 0.0425,
      "grad_norm": 3.2783494537813276,
      "learning_rate": 4.248000000000001e-06,
      "loss": 2.5404,
      "step": 2125
    },
    {
      "epoch": 0.043,
      "grad_norm": 7.304771067898564,
      "learning_rate": 4.298e-06,
      "loss": 2.526,
      "step": 2150
    },
    {
      "epoch": 0.0435,
      "grad_norm": 1.470780395904616,
      "learning_rate": 4.3480000000000006e-06,
      "loss": 2.5279,
      "step": 2175
    },
    {
      "epoch": 0.044,
      "grad_norm": 4.0481167806519,
      "learning_rate": 4.398000000000001e-06,
      "loss": 2.5243,
      "step": 2200
    },
    {
      "epoch": 0.044,
      "eval_loss": 2.541273593902588,
      "eval_runtime": 31.6256,
      "eval_samples_per_second": 3.352,
      "eval_steps_per_second": 0.854,
      "step": 2200
    },
    {
      "epoch": 0.0445,
      "grad_norm": 3.078344902427094,
      "learning_rate": 4.4480000000000004e-06,
      "loss": 2.5298,
      "step": 2225
    },
    {
      "epoch": 0.045,
      "grad_norm": 2.424401506170523,
      "learning_rate": 4.498e-06,
      "loss": 2.5334,
      "step": 2250
    },
    {
      "epoch": 0.0455,
      "grad_norm": 6.696232827922732,
      "learning_rate": 4.548e-06,
      "loss": 2.5342,
      "step": 2275
    },
    {
      "epoch": 0.046,
      "grad_norm": 1.6221976812615748,
      "learning_rate": 4.598e-06,
      "loss": 2.5254,
      "step": 2300
    },
    {
      "epoch": 0.046,
      "eval_loss": 2.5389151573181152,
      "eval_runtime": 31.6396,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 2300
    },
    {
      "epoch": 0.0465,
      "grad_norm": 4.59240027677146,
      "learning_rate": 4.648e-06,
      "loss": 2.5264,
      "step": 2325
    },
    {
      "epoch": 0.047,
      "grad_norm": 3.1036878087546205,
      "learning_rate": 4.698000000000001e-06,
      "loss": 2.5356,
      "step": 2350
    },
    {
      "epoch": 0.0475,
      "grad_norm": 2.698795487781583,
      "learning_rate": 4.748e-06,
      "loss": 2.5251,
      "step": 2375
    },
    {
      "epoch": 0.048,
      "grad_norm": 4.022902376629088,
      "learning_rate": 4.7980000000000005e-06,
      "loss": 2.5211,
      "step": 2400
    },
    {
      "epoch": 0.048,
      "eval_loss": 2.5371463298797607,
      "eval_runtime": 31.6111,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 2400
    },
    {
      "epoch": 0.0485,
      "grad_norm": 1.9230869645311859,
      "learning_rate": 4.848000000000001e-06,
      "loss": 2.5138,
      "step": 2425
    },
    {
      "epoch": 0.049,
      "grad_norm": 4.234899191448228,
      "learning_rate": 4.898e-06,
      "loss": 2.5342,
      "step": 2450
    },
    {
      "epoch": 0.0495,
      "grad_norm": 4.877820273874513,
      "learning_rate": 4.948000000000001e-06,
      "loss": 2.5306,
      "step": 2475
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2038033583067678,
      "learning_rate": 4.998e-06,
      "loss": 2.5299,
      "step": 2500
    },
    {
      "epoch": 0.05,
      "eval_loss": 2.535377264022827,
      "eval_runtime": 31.7053,
      "eval_samples_per_second": 3.343,
      "eval_steps_per_second": 0.852,
      "step": 2500
    },
    {
      "epoch": 0.0505,
      "grad_norm": 1.457847344913734,
      "learning_rate": 5.048000000000001e-06,
      "loss": 2.5284,
      "step": 2525
    },
    {
      "epoch": 0.051,
      "grad_norm": 3.3976354659650205,
      "learning_rate": 5.098000000000001e-06,
      "loss": 2.5255,
      "step": 2550
    },
    {
      "epoch": 0.0515,
      "grad_norm": 1.3795475908793975,
      "learning_rate": 5.1480000000000005e-06,
      "loss": 2.5298,
      "step": 2575
    },
    {
      "epoch": 0.052,
      "grad_norm": 2.503585009963638,
      "learning_rate": 5.198000000000001e-06,
      "loss": 2.5329,
      "step": 2600
    },
    {
      "epoch": 0.052,
      "eval_loss": 2.533313751220703,
      "eval_runtime": 31.7208,
      "eval_samples_per_second": 3.342,
      "eval_steps_per_second": 0.851,
      "step": 2600
    },
    {
      "epoch": 0.0525,
      "grad_norm": 1.5928697147211628,
      "learning_rate": 5.248000000000001e-06,
      "loss": 2.5207,
      "step": 2625
    },
    {
      "epoch": 0.053,
      "grad_norm": 4.142079930582361,
      "learning_rate": 5.298000000000001e-06,
      "loss": 2.5276,
      "step": 2650
    },
    {
      "epoch": 0.0535,
      "grad_norm": 1.6506514288651493,
      "learning_rate": 5.348000000000001e-06,
      "loss": 2.5351,
      "step": 2675
    },
    {
      "epoch": 0.054,
      "grad_norm": 0.9935806352551346,
      "learning_rate": 5.398e-06,
      "loss": 2.5136,
      "step": 2700
    },
    {
      "epoch": 0.054,
      "eval_loss": 2.5315449237823486,
      "eval_runtime": 31.6455,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 2700
    },
    {
      "epoch": 0.0545,
      "grad_norm": 1.0414498471656755,
      "learning_rate": 5.448e-06,
      "loss": 2.5174,
      "step": 2725
    },
    {
      "epoch": 0.055,
      "grad_norm": 1.6440932231809144,
      "learning_rate": 5.498e-06,
      "loss": 2.5241,
      "step": 2750
    },
    {
      "epoch": 0.0555,
      "grad_norm": 1.2671657905301041,
      "learning_rate": 5.548e-06,
      "loss": 2.5214,
      "step": 2775
    },
    {
      "epoch": 0.056,
      "grad_norm": 2.193388679999868,
      "learning_rate": 5.5980000000000004e-06,
      "loss": 2.5177,
      "step": 2800
    },
    {
      "epoch": 0.056,
      "eval_loss": 2.530365467071533,
      "eval_runtime": 31.6494,
      "eval_samples_per_second": 3.349,
      "eval_steps_per_second": 0.853,
      "step": 2800
    },
    {
      "epoch": 0.0565,
      "grad_norm": 1.1100755835403464,
      "learning_rate": 5.648e-06,
      "loss": 2.513,
      "step": 2825
    },
    {
      "epoch": 0.057,
      "grad_norm": 1.012687003610205,
      "learning_rate": 5.698e-06,
      "loss": 2.5171,
      "step": 2850
    },
    {
      "epoch": 0.0575,
      "grad_norm": 3.590123409049871,
      "learning_rate": 5.748e-06,
      "loss": 2.5185,
      "step": 2875
    },
    {
      "epoch": 0.058,
      "grad_norm": 0.9965504720980352,
      "learning_rate": 5.798e-06,
      "loss": 2.5261,
      "step": 2900
    },
    {
      "epoch": 0.058,
      "eval_loss": 2.529186248779297,
      "eval_runtime": 31.7426,
      "eval_samples_per_second": 3.339,
      "eval_steps_per_second": 0.851,
      "step": 2900
    },
    {
      "epoch": 0.0585,
      "grad_norm": 10.858302444645757,
      "learning_rate": 5.848000000000001e-06,
      "loss": 2.5175,
      "step": 2925
    },
    {
      "epoch": 0.059,
      "grad_norm": 1.4839413654149125,
      "learning_rate": 5.898e-06,
      "loss": 2.5272,
      "step": 2950
    },
    {
      "epoch": 0.0595,
      "grad_norm": 4.153709792295477,
      "learning_rate": 5.9480000000000005e-06,
      "loss": 2.5095,
      "step": 2975
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9099122371246413,
      "learning_rate": 5.998000000000001e-06,
      "loss": 2.5152,
      "step": 3000
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.527712345123291,
      "eval_runtime": 31.6424,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 3000
    },
    {
      "epoch": 0.0605,
      "grad_norm": 1.8746080139582246,
      "learning_rate": 6.048e-06,
      "loss": 2.5109,
      "step": 3025
    },
    {
      "epoch": 0.061,
      "grad_norm": 0.9932284615776802,
      "learning_rate": 6.098000000000001e-06,
      "loss": 2.5241,
      "step": 3050
    },
    {
      "epoch": 0.0615,
      "grad_norm": 1.065058944784537,
      "learning_rate": 6.148e-06,
      "loss": 2.5234,
      "step": 3075
    },
    {
      "epoch": 0.062,
      "grad_norm": 4.2213264971539495,
      "learning_rate": 6.198000000000001e-06,
      "loss": 2.5161,
      "step": 3100
    },
    {
      "epoch": 0.062,
      "eval_loss": 2.527712345123291,
      "eval_runtime": 31.6811,
      "eval_samples_per_second": 3.346,
      "eval_steps_per_second": 0.852,
      "step": 3100
    },
    {
      "epoch": 0.0625,
      "grad_norm": 1.0142156249845284,
      "learning_rate": 6.248000000000001e-06,
      "loss": 2.5092,
      "step": 3125
    },
    {
      "epoch": 0.063,
      "grad_norm": 5.27143251635753,
      "learning_rate": 6.2980000000000005e-06,
      "loss": 2.5204,
      "step": 3150
    },
    {
      "epoch": 0.0635,
      "grad_norm": 4.064896667035173,
      "learning_rate": 6.348000000000001e-06,
      "loss": 2.5166,
      "step": 3175
    },
    {
      "epoch": 0.064,
      "grad_norm": 2.3110502080484188,
      "learning_rate": 6.398000000000001e-06,
      "loss": 2.5179,
      "step": 3200
    },
    {
      "epoch": 0.064,
      "eval_loss": 2.5265331268310547,
      "eval_runtime": 31.9236,
      "eval_samples_per_second": 3.32,
      "eval_steps_per_second": 0.846,
      "step": 3200
    },
    {
      "epoch": 0.0645,
      "grad_norm": 1.3859981336713079,
      "learning_rate": 6.448000000000001e-06,
      "loss": 2.5086,
      "step": 3225
    },
    {
      "epoch": 0.065,
      "grad_norm": 1.29981278376012,
      "learning_rate": 6.498000000000001e-06,
      "loss": 2.5156,
      "step": 3250
    },
    {
      "epoch": 0.0655,
      "grad_norm": 1.212377675038532,
      "learning_rate": 6.548000000000001e-06,
      "loss": 2.5085,
      "step": 3275
    },
    {
      "epoch": 0.066,
      "grad_norm": 0.8179357929230128,
      "learning_rate": 6.598000000000001e-06,
      "loss": 2.5151,
      "step": 3300
    },
    {
      "epoch": 0.066,
      "eval_loss": 2.526238203048706,
      "eval_runtime": 31.6057,
      "eval_samples_per_second": 3.354,
      "eval_steps_per_second": 0.854,
      "step": 3300
    },
    {
      "epoch": 0.0665,
      "grad_norm": 0.8510661723413057,
      "learning_rate": 6.648e-06,
      "loss": 2.501,
      "step": 3325
    },
    {
      "epoch": 0.067,
      "grad_norm": 0.8276927200382412,
      "learning_rate": 6.698e-06,
      "loss": 2.5142,
      "step": 3350
    },
    {
      "epoch": 0.0675,
      "grad_norm": 0.9378604337812182,
      "learning_rate": 6.7480000000000004e-06,
      "loss": 2.5186,
      "step": 3375
    },
    {
      "epoch": 0.068,
      "grad_norm": 0.9361692538817794,
      "learning_rate": 6.798e-06,
      "loss": 2.5172,
      "step": 3400
    },
    {
      "epoch": 0.068,
      "eval_loss": 2.5250589847564697,
      "eval_runtime": 31.6061,
      "eval_samples_per_second": 3.354,
      "eval_steps_per_second": 0.854,
      "step": 3400
    },
    {
      "epoch": 0.0685,
      "grad_norm": 2.3422890150387055,
      "learning_rate": 6.848e-06,
      "loss": 2.5228,
      "step": 3425
    },
    {
      "epoch": 0.069,
      "grad_norm": 1.4884269701808963,
      "learning_rate": 6.898e-06,
      "loss": 2.5202,
      "step": 3450
    },
    {
      "epoch": 0.0695,
      "grad_norm": 2.1790981658446458,
      "learning_rate": 6.948e-06,
      "loss": 2.5093,
      "step": 3475
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.0704908228926886,
      "learning_rate": 6.998000000000001e-06,
      "loss": 2.5139,
      "step": 3500
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.524764060974121,
      "eval_runtime": 31.5652,
      "eval_samples_per_second": 3.358,
      "eval_steps_per_second": 0.855,
      "step": 3500
    },
    {
      "epoch": 0.0705,
      "grad_norm": 1.7179296688504122,
      "learning_rate": 7.048e-06,
      "loss": 2.5233,
      "step": 3525
    },
    {
      "epoch": 0.071,
      "grad_norm": 1.0022504705786135,
      "learning_rate": 7.0980000000000005e-06,
      "loss": 2.5239,
      "step": 3550
    },
    {
      "epoch": 0.0715,
      "grad_norm": 0.8330455350318481,
      "learning_rate": 7.148000000000001e-06,
      "loss": 2.5138,
      "step": 3575
    },
    {
      "epoch": 0.072,
      "grad_norm": 1.4134926601254947,
      "learning_rate": 7.198e-06,
      "loss": 2.5164,
      "step": 3600
    },
    {
      "epoch": 0.072,
      "eval_loss": 2.524174451828003,
      "eval_runtime": 31.6742,
      "eval_samples_per_second": 3.347,
      "eval_steps_per_second": 0.852,
      "step": 3600
    },
    {
      "epoch": 0.0725,
      "grad_norm": 6.079377219850451,
      "learning_rate": 7.248000000000001e-06,
      "loss": 2.5286,
      "step": 3625
    },
    {
      "epoch": 0.073,
      "grad_norm": 1.2135601583656899,
      "learning_rate": 7.298e-06,
      "loss": 2.522,
      "step": 3650
    },
    {
      "epoch": 0.0735,
      "grad_norm": 1.1679985497748089,
      "learning_rate": 7.348000000000001e-06,
      "loss": 2.5177,
      "step": 3675
    },
    {
      "epoch": 0.074,
      "grad_norm": 1.7943286008630555,
      "learning_rate": 7.398000000000001e-06,
      "loss": 2.496,
      "step": 3700
    },
    {
      "epoch": 0.074,
      "eval_loss": 2.5235848426818848,
      "eval_runtime": 31.7011,
      "eval_samples_per_second": 3.344,
      "eval_steps_per_second": 0.852,
      "step": 3700
    },
    {
      "epoch": 0.0745,
      "grad_norm": 3.9796277292747666,
      "learning_rate": 7.4480000000000005e-06,
      "loss": 2.5169,
      "step": 3725
    },
    {
      "epoch": 0.075,
      "grad_norm": 1.380394250398271,
      "learning_rate": 7.498000000000001e-06,
      "loss": 2.5094,
      "step": 3750
    },
    {
      "epoch": 0.0755,
      "grad_norm": 3.0313765413416895,
      "learning_rate": 7.548000000000001e-06,
      "loss": 2.5055,
      "step": 3775
    },
    {
      "epoch": 0.076,
      "grad_norm": 2.245387638839618,
      "learning_rate": 7.598000000000001e-06,
      "loss": 2.5172,
      "step": 3800
    },
    {
      "epoch": 0.076,
      "eval_loss": 2.5229952335357666,
      "eval_runtime": 31.6283,
      "eval_samples_per_second": 3.351,
      "eval_steps_per_second": 0.854,
      "step": 3800
    },
    {
      "epoch": 0.0765,
      "grad_norm": 1.706692381304059,
      "learning_rate": 7.648e-06,
      "loss": 2.5128,
      "step": 3825
    },
    {
      "epoch": 0.077,
      "grad_norm": 1.085621140871541,
      "learning_rate": 7.698000000000002e-06,
      "loss": 2.5104,
      "step": 3850
    },
    {
      "epoch": 0.0775,
      "grad_norm": 1.240137406582716,
      "learning_rate": 7.748000000000001e-06,
      "loss": 2.5221,
      "step": 3875
    },
    {
      "epoch": 0.078,
      "grad_norm": 1.4727017842198826,
      "learning_rate": 7.798e-06,
      "loss": 2.5002,
      "step": 3900
    },
    {
      "epoch": 0.078,
      "eval_loss": 2.5224056243896484,
      "eval_runtime": 31.6561,
      "eval_samples_per_second": 3.348,
      "eval_steps_per_second": 0.853,
      "step": 3900
    },
    {
      "epoch": 0.0785,
      "grad_norm": 0.8287061589077178,
      "learning_rate": 7.848000000000002e-06,
      "loss": 2.5188,
      "step": 3925
    },
    {
      "epoch": 0.079,
      "grad_norm": 1.9412593547366452,
      "learning_rate": 7.898e-06,
      "loss": 2.5128,
      "step": 3950
    },
    {
      "epoch": 0.0795,
      "grad_norm": 1.507826764306867,
      "learning_rate": 7.948e-06,
      "loss": 2.5157,
      "step": 3975
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0070408907220643,
      "learning_rate": 7.998e-06,
      "loss": 2.5136,
      "step": 4000
    },
    {
      "epoch": 0.08,
      "eval_loss": 2.5203418731689453,
      "eval_runtime": 31.6704,
      "eval_samples_per_second": 3.347,
      "eval_steps_per_second": 0.853,
      "step": 4000
    },
    {
      "epoch": 0.0805,
      "grad_norm": 0.9139528882890205,
      "learning_rate": 8.048e-06,
      "loss": 2.5153,
      "step": 4025
    },
    {
      "epoch": 0.081,
      "grad_norm": 3.1234207366182027,
      "learning_rate": 8.098000000000001e-06,
      "loss": 2.5125,
      "step": 4050
    },
    {
      "epoch": 0.0815,
      "grad_norm": 0.8261934904482937,
      "learning_rate": 8.148e-06,
      "loss": 2.5197,
      "step": 4075
    },
    {
      "epoch": 0.082,
      "grad_norm": 0.8407881378613186,
      "learning_rate": 8.198e-06,
      "loss": 2.5184,
      "step": 4100
    },
    {
      "epoch": 0.082,
      "eval_loss": 2.5209317207336426,
      "eval_runtime": 31.816,
      "eval_samples_per_second": 3.332,
      "eval_steps_per_second": 0.849,
      "step": 4100
    },
    {
      "epoch": 0.0825,
      "grad_norm": 0.6865188622763857,
      "learning_rate": 8.248e-06,
      "loss": 2.5108,
      "step": 4125
    },
    {
      "epoch": 0.083,
      "grad_norm": 0.8440391843752413,
      "learning_rate": 8.298000000000001e-06,
      "loss": 2.504,
      "step": 4150
    },
    {
      "epoch": 0.0835,
      "grad_norm": 1.2406936940712257,
      "learning_rate": 8.348e-06,
      "loss": 2.5128,
      "step": 4175
    },
    {
      "epoch": 0.084,
      "grad_norm": 1.0065152284825731,
      "learning_rate": 8.398e-06,
      "loss": 2.511,
      "step": 4200
    },
    {
      "epoch": 0.084,
      "eval_loss": 2.5203418731689453,
      "eval_runtime": 31.6615,
      "eval_samples_per_second": 3.348,
      "eval_steps_per_second": 0.853,
      "step": 4200
    },
    {
      "epoch": 0.0845,
      "grad_norm": 1.037069923815588,
      "learning_rate": 8.448000000000001e-06,
      "loss": 2.5088,
      "step": 4225
    },
    {
      "epoch": 0.085,
      "grad_norm": 2.4303667066934254,
      "learning_rate": 8.498e-06,
      "loss": 2.4997,
      "step": 4250
    },
    {
      "epoch": 0.0855,
      "grad_norm": 1.4724222217702825,
      "learning_rate": 8.548e-06,
      "loss": 2.5073,
      "step": 4275
    },
    {
      "epoch": 0.086,
      "grad_norm": 9.444493964030588,
      "learning_rate": 8.598000000000001e-06,
      "loss": 2.5124,
      "step": 4300
    },
    {
      "epoch": 0.086,
      "eval_loss": 2.5194575786590576,
      "eval_runtime": 31.6406,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 4300
    },
    {
      "epoch": 0.0865,
      "grad_norm": 2.218623091874727,
      "learning_rate": 8.648000000000001e-06,
      "loss": 2.5,
      "step": 4325
    },
    {
      "epoch": 0.087,
      "grad_norm": 1.1325241529581473,
      "learning_rate": 8.698e-06,
      "loss": 2.5131,
      "step": 4350
    },
    {
      "epoch": 0.0875,
      "grad_norm": 1.4061959818148488,
      "learning_rate": 8.748000000000002e-06,
      "loss": 2.5078,
      "step": 4375
    },
    {
      "epoch": 0.088,
      "grad_norm": 0.7924670159627136,
      "learning_rate": 8.798000000000001e-06,
      "loss": 2.5081,
      "step": 4400
    },
    {
      "epoch": 0.088,
      "eval_loss": 2.519162654876709,
      "eval_runtime": 31.5649,
      "eval_samples_per_second": 3.358,
      "eval_steps_per_second": 0.855,
      "step": 4400
    },
    {
      "epoch": 0.0885,
      "grad_norm": 1.7741039093023965,
      "learning_rate": 8.848e-06,
      "loss": 2.5067,
      "step": 4425
    },
    {
      "epoch": 0.089,
      "grad_norm": 0.766073391828734,
      "learning_rate": 8.898000000000002e-06,
      "loss": 2.5029,
      "step": 4450
    },
    {
      "epoch": 0.0895,
      "grad_norm": 0.7195151746831012,
      "learning_rate": 8.948000000000001e-06,
      "loss": 2.5085,
      "step": 4475
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8599409201158774,
      "learning_rate": 8.998000000000001e-06,
      "loss": 2.5071,
      "step": 4500
    },
    {
      "epoch": 0.09,
      "eval_loss": 2.5194575786590576,
      "eval_runtime": 31.6267,
      "eval_samples_per_second": 3.352,
      "eval_steps_per_second": 0.854,
      "step": 4500
    },
    {
      "epoch": 0.0905,
      "grad_norm": 0.713893441525958,
      "learning_rate": 9.048e-06,
      "loss": 2.5072,
      "step": 4525
    },
    {
      "epoch": 0.091,
      "grad_norm": 0.6233173190909058,
      "learning_rate": 9.098000000000002e-06,
      "loss": 2.5019,
      "step": 4550
    },
    {
      "epoch": 0.0915,
      "grad_norm": 0.6469529621475963,
      "learning_rate": 9.148e-06,
      "loss": 2.5044,
      "step": 4575
    },
    {
      "epoch": 0.092,
      "grad_norm": 0.6608368808707902,
      "learning_rate": 9.198e-06,
      "loss": 2.4945,
      "step": 4600
    },
    {
      "epoch": 0.092,
      "eval_loss": 2.518573045730591,
      "eval_runtime": 31.6806,
      "eval_samples_per_second": 3.346,
      "eval_steps_per_second": 0.852,
      "step": 4600
    },
    {
      "epoch": 0.0925,
      "grad_norm": 0.8106332715320632,
      "learning_rate": 9.248e-06,
      "loss": 2.5067,
      "step": 4625
    },
    {
      "epoch": 0.093,
      "grad_norm": 0.613334869116551,
      "learning_rate": 9.298e-06,
      "loss": 2.514,
      "step": 4650
    },
    {
      "epoch": 0.0935,
      "grad_norm": 0.6303730281536211,
      "learning_rate": 9.348000000000001e-06,
      "loss": 2.5083,
      "step": 4675
    },
    {
      "epoch": 0.094,
      "grad_norm": 0.6322414031260126,
      "learning_rate": 9.398e-06,
      "loss": 2.5068,
      "step": 4700
    },
    {
      "epoch": 0.094,
      "eval_loss": 2.517688751220703,
      "eval_runtime": 31.6555,
      "eval_samples_per_second": 3.349,
      "eval_steps_per_second": 0.853,
      "step": 4700
    },
    {
      "epoch": 0.0945,
      "grad_norm": 0.7141142061627065,
      "learning_rate": 9.448e-06,
      "loss": 2.505,
      "step": 4725
    },
    {
      "epoch": 0.095,
      "grad_norm": 0.7359902069087727,
      "learning_rate": 9.498000000000001e-06,
      "loss": 2.5064,
      "step": 4750
    },
    {
      "epoch": 0.0955,
      "grad_norm": 2.8939342680384064,
      "learning_rate": 9.548e-06,
      "loss": 2.4955,
      "step": 4775
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.6142018458398064,
      "learning_rate": 9.598e-06,
      "loss": 2.5262,
      "step": 4800
    },
    {
      "epoch": 0.096,
      "eval_loss": 2.5173938274383545,
      "eval_runtime": 31.8932,
      "eval_samples_per_second": 3.324,
      "eval_steps_per_second": 0.847,
      "step": 4800
    },
    {
      "epoch": 0.0965,
      "grad_norm": 0.7591886413422146,
      "learning_rate": 9.648000000000001e-06,
      "loss": 2.5039,
      "step": 4825
    },
    {
      "epoch": 0.097,
      "grad_norm": 0.8741359664470049,
      "learning_rate": 9.698000000000001e-06,
      "loss": 2.5101,
      "step": 4850
    },
    {
      "epoch": 0.0975,
      "grad_norm": 0.6058451377431769,
      "learning_rate": 9.748e-06,
      "loss": 2.508,
      "step": 4875
    },
    {
      "epoch": 0.098,
      "grad_norm": 0.6676967508556061,
      "learning_rate": 9.798e-06,
      "loss": 2.5105,
      "step": 4900
    },
    {
      "epoch": 0.098,
      "eval_loss": 2.5173938274383545,
      "eval_runtime": 31.6434,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 4900
    },
    {
      "epoch": 0.0985,
      "grad_norm": 0.6658518907375024,
      "learning_rate": 9.848000000000001e-06,
      "loss": 2.5086,
      "step": 4925
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.6210642351345088,
      "learning_rate": 9.898e-06,
      "loss": 2.5088,
      "step": 4950
    },
    {
      "epoch": 0.0995,
      "grad_norm": 0.5889895299848711,
      "learning_rate": 9.948e-06,
      "loss": 2.5125,
      "step": 4975
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.601939432781195,
      "learning_rate": 9.998000000000002e-06,
      "loss": 2.507,
      "step": 5000
    },
    {
      "epoch": 0.1,
      "eval_loss": 2.5168042182922363,
      "eval_runtime": 31.7525,
      "eval_samples_per_second": 3.338,
      "eval_steps_per_second": 0.85,
      "step": 5000
    },
    {
      "epoch": 0.1005,
      "grad_norm": 0.5863277906860563,
      "learning_rate": 9.994666666666668e-06,
      "loss": 2.5049,
      "step": 5025
    },
    {
      "epoch": 0.101,
      "grad_norm": 0.5907628491061302,
      "learning_rate": 9.989111111111111e-06,
      "loss": 2.5081,
      "step": 5050
    },
    {
      "epoch": 0.1015,
      "grad_norm": 0.6052892176154054,
      "learning_rate": 9.983555555555556e-06,
      "loss": 2.492,
      "step": 5075
    },
    {
      "epoch": 0.102,
      "grad_norm": 0.60615426444314,
      "learning_rate": 9.978000000000002e-06,
      "loss": 2.5117,
      "step": 5100
    },
    {
      "epoch": 0.102,
      "eval_loss": 2.5159199237823486,
      "eval_runtime": 31.6096,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 5100
    },
    {
      "epoch": 0.1025,
      "grad_norm": 0.9921486289898994,
      "learning_rate": 9.972444444444445e-06,
      "loss": 2.5042,
      "step": 5125
    },
    {
      "epoch": 0.103,
      "grad_norm": 0.5438905467342706,
      "learning_rate": 9.966888888888889e-06,
      "loss": 2.5186,
      "step": 5150
    },
    {
      "epoch": 0.1035,
      "grad_norm": 0.6671923807124565,
      "learning_rate": 9.961333333333334e-06,
      "loss": 2.4965,
      "step": 5175
    },
    {
      "epoch": 0.104,
      "grad_norm": 0.5927621920818558,
      "learning_rate": 9.95577777777778e-06,
      "loss": 2.5151,
      "step": 5200
    },
    {
      "epoch": 0.104,
      "eval_loss": 2.516214609146118,
      "eval_runtime": 33.4192,
      "eval_samples_per_second": 3.172,
      "eval_steps_per_second": 0.808,
      "step": 5200
    },
    {
      "epoch": 0.1045,
      "grad_norm": 0.5887168586235929,
      "learning_rate": 9.950222222222223e-06,
      "loss": 2.5022,
      "step": 5225
    },
    {
      "epoch": 0.105,
      "grad_norm": 0.601347414578016,
      "learning_rate": 9.944666666666668e-06,
      "loss": 2.5033,
      "step": 5250
    },
    {
      "epoch": 0.1055,
      "grad_norm": 1.1147364476570238,
      "learning_rate": 9.939111111111112e-06,
      "loss": 2.5028,
      "step": 5275
    },
    {
      "epoch": 0.106,
      "grad_norm": 0.6327491084423742,
      "learning_rate": 9.933555555555557e-06,
      "loss": 2.5015,
      "step": 5300
    },
    {
      "epoch": 0.106,
      "eval_loss": 2.515625,
      "eval_runtime": 33.2149,
      "eval_samples_per_second": 3.191,
      "eval_steps_per_second": 0.813,
      "step": 5300
    },
    {
      "epoch": 0.1065,
      "grad_norm": 0.5782577240017591,
      "learning_rate": 9.928e-06,
      "loss": 2.5027,
      "step": 5325
    },
    {
      "epoch": 0.107,
      "grad_norm": 0.5793288292949659,
      "learning_rate": 9.922444444444446e-06,
      "loss": 2.5211,
      "step": 5350
    },
    {
      "epoch": 0.1075,
      "grad_norm": 0.5590969465700796,
      "learning_rate": 9.91688888888889e-06,
      "loss": 2.5011,
      "step": 5375
    },
    {
      "epoch": 0.108,
      "grad_norm": 0.5479364900193122,
      "learning_rate": 9.911333333333335e-06,
      "loss": 2.5017,
      "step": 5400
    },
    {
      "epoch": 0.108,
      "eval_loss": 2.515035390853882,
      "eval_runtime": 33.559,
      "eval_samples_per_second": 3.159,
      "eval_steps_per_second": 0.805,
      "step": 5400
    },
    {
      "epoch": 0.1085,
      "grad_norm": 0.6071449747188377,
      "learning_rate": 9.905777777777778e-06,
      "loss": 2.5082,
      "step": 5425
    },
    {
      "epoch": 0.109,
      "grad_norm": 0.586787674324507,
      "learning_rate": 9.900222222222223e-06,
      "loss": 2.4976,
      "step": 5450
    },
    {
      "epoch": 0.1095,
      "grad_norm": 0.5518198424351226,
      "learning_rate": 9.894666666666669e-06,
      "loss": 2.5015,
      "step": 5475
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6202159170702171,
      "learning_rate": 9.889111111111112e-06,
      "loss": 2.5112,
      "step": 5500
    },
    {
      "epoch": 0.11,
      "eval_loss": 2.515035390853882,
      "eval_runtime": 33.5553,
      "eval_samples_per_second": 3.159,
      "eval_steps_per_second": 0.805,
      "step": 5500
    },
    {
      "epoch": 0.1105,
      "grad_norm": 0.6453434661163482,
      "learning_rate": 9.883555555555556e-06,
      "loss": 2.4963,
      "step": 5525
    },
    {
      "epoch": 0.111,
      "grad_norm": 0.5456728245790678,
      "learning_rate": 9.878000000000001e-06,
      "loss": 2.503,
      "step": 5550
    },
    {
      "epoch": 0.1115,
      "grad_norm": 0.5360784869281232,
      "learning_rate": 9.872444444444446e-06,
      "loss": 2.502,
      "step": 5575
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.5546380785080989,
      "learning_rate": 9.86688888888889e-06,
      "loss": 2.5047,
      "step": 5600
    },
    {
      "epoch": 0.112,
      "eval_loss": 2.5138561725616455,
      "eval_runtime": 31.7558,
      "eval_samples_per_second": 3.338,
      "eval_steps_per_second": 0.85,
      "step": 5600
    },
    {
      "epoch": 0.1125,
      "grad_norm": 0.5677229074415441,
      "learning_rate": 9.861333333333333e-06,
      "loss": 2.5084,
      "step": 5625
    },
    {
      "epoch": 0.113,
      "grad_norm": 0.5665828460218333,
      "learning_rate": 9.855777777777779e-06,
      "loss": 2.5006,
      "step": 5650
    },
    {
      "epoch": 0.1135,
      "grad_norm": 0.6231915277731267,
      "learning_rate": 9.850222222222224e-06,
      "loss": 2.5019,
      "step": 5675
    },
    {
      "epoch": 0.114,
      "grad_norm": 0.5386821317170616,
      "learning_rate": 9.844666666666667e-06,
      "loss": 2.4936,
      "step": 5700
    },
    {
      "epoch": 0.114,
      "eval_loss": 2.512676954269409,
      "eval_runtime": 31.6592,
      "eval_samples_per_second": 3.348,
      "eval_steps_per_second": 0.853,
      "step": 5700
    },
    {
      "epoch": 0.1145,
      "grad_norm": 0.5333458931081642,
      "learning_rate": 9.839111111111111e-06,
      "loss": 2.5128,
      "step": 5725
    },
    {
      "epoch": 0.115,
      "grad_norm": 0.6634412967350025,
      "learning_rate": 9.833555555555556e-06,
      "loss": 2.4935,
      "step": 5750
    },
    {
      "epoch": 0.1155,
      "grad_norm": 0.6495713608767936,
      "learning_rate": 9.828000000000001e-06,
      "loss": 2.5097,
      "step": 5775
    },
    {
      "epoch": 0.116,
      "grad_norm": 0.6359186009058505,
      "learning_rate": 9.822444444444445e-06,
      "loss": 2.5047,
      "step": 5800
    },
    {
      "epoch": 0.116,
      "eval_loss": 2.5129716396331787,
      "eval_runtime": 31.5608,
      "eval_samples_per_second": 3.359,
      "eval_steps_per_second": 0.855,
      "step": 5800
    },
    {
      "epoch": 0.1165,
      "grad_norm": 0.6239988101253886,
      "learning_rate": 9.81688888888889e-06,
      "loss": 2.4978,
      "step": 5825
    },
    {
      "epoch": 0.117,
      "grad_norm": 0.5942643505285292,
      "learning_rate": 9.811333333333334e-06,
      "loss": 2.4944,
      "step": 5850
    },
    {
      "epoch": 0.1175,
      "grad_norm": 0.5335363645218594,
      "learning_rate": 9.805777777777779e-06,
      "loss": 2.4962,
      "step": 5875
    },
    {
      "epoch": 0.118,
      "grad_norm": 0.5494019049427782,
      "learning_rate": 9.800222222222223e-06,
      "loss": 2.5034,
      "step": 5900
    },
    {
      "epoch": 0.118,
      "eval_loss": 2.512087345123291,
      "eval_runtime": 31.5964,
      "eval_samples_per_second": 3.355,
      "eval_steps_per_second": 0.855,
      "step": 5900
    },
    {
      "epoch": 0.1185,
      "grad_norm": 0.5628262336899048,
      "learning_rate": 9.794666666666668e-06,
      "loss": 2.498,
      "step": 5925
    },
    {
      "epoch": 0.119,
      "grad_norm": 0.5309875914486921,
      "learning_rate": 9.789111111111111e-06,
      "loss": 2.5058,
      "step": 5950
    },
    {
      "epoch": 0.1195,
      "grad_norm": 0.5098048565176445,
      "learning_rate": 9.783555555555557e-06,
      "loss": 2.5019,
      "step": 5975
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5525705733015823,
      "learning_rate": 9.778e-06,
      "loss": 2.5073,
      "step": 6000
    },
    {
      "epoch": 0.12,
      "eval_loss": 2.5123820304870605,
      "eval_runtime": 31.6524,
      "eval_samples_per_second": 3.349,
      "eval_steps_per_second": 0.853,
      "step": 6000
    },
    {
      "epoch": 0.1205,
      "grad_norm": 0.667754049742565,
      "learning_rate": 9.772444444444445e-06,
      "loss": 2.5045,
      "step": 6025
    },
    {
      "epoch": 0.121,
      "grad_norm": 0.5496899380142036,
      "learning_rate": 9.76688888888889e-06,
      "loss": 2.498,
      "step": 6050
    },
    {
      "epoch": 0.1215,
      "grad_norm": 0.5366932619820161,
      "learning_rate": 9.761333333333334e-06,
      "loss": 2.5047,
      "step": 6075
    },
    {
      "epoch": 0.122,
      "grad_norm": 0.5307187417069992,
      "learning_rate": 9.755777777777778e-06,
      "loss": 2.5068,
      "step": 6100
    },
    {
      "epoch": 0.122,
      "eval_loss": 2.511202812194824,
      "eval_runtime": 31.6436,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 6100
    },
    {
      "epoch": 0.1225,
      "grad_norm": 0.5120264018317957,
      "learning_rate": 9.750222222222223e-06,
      "loss": 2.5015,
      "step": 6125
    },
    {
      "epoch": 0.123,
      "grad_norm": 0.5282121644036795,
      "learning_rate": 9.744666666666668e-06,
      "loss": 2.507,
      "step": 6150
    },
    {
      "epoch": 0.1235,
      "grad_norm": 0.634830465577626,
      "learning_rate": 9.739111111111112e-06,
      "loss": 2.5014,
      "step": 6175
    },
    {
      "epoch": 0.124,
      "grad_norm": 0.514470702860497,
      "learning_rate": 9.733555555555555e-06,
      "loss": 2.4965,
      "step": 6200
    },
    {
      "epoch": 0.124,
      "eval_loss": 2.511202812194824,
      "eval_runtime": 31.6088,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 6200
    },
    {
      "epoch": 0.1245,
      "grad_norm": 0.4997175642406598,
      "learning_rate": 9.728e-06,
      "loss": 2.4948,
      "step": 6225
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.5497609531752035,
      "learning_rate": 9.722444444444446e-06,
      "loss": 2.503,
      "step": 6250
    },
    {
      "epoch": 0.1255,
      "grad_norm": 0.6144070155717539,
      "learning_rate": 9.71688888888889e-06,
      "loss": 2.4977,
      "step": 6275
    },
    {
      "epoch": 0.126,
      "grad_norm": 0.5191303677449087,
      "learning_rate": 9.711333333333333e-06,
      "loss": 2.4975,
      "step": 6300
    },
    {
      "epoch": 0.126,
      "eval_loss": 2.5103182792663574,
      "eval_runtime": 31.7187,
      "eval_samples_per_second": 3.342,
      "eval_steps_per_second": 0.851,
      "step": 6300
    },
    {
      "epoch": 0.1265,
      "grad_norm": 0.6330521999309859,
      "learning_rate": 9.705777777777778e-06,
      "loss": 2.4995,
      "step": 6325
    },
    {
      "epoch": 0.127,
      "grad_norm": 0.5462430526003252,
      "learning_rate": 9.700222222222224e-06,
      "loss": 2.5047,
      "step": 6350
    },
    {
      "epoch": 0.1275,
      "grad_norm": 0.9329321931683348,
      "learning_rate": 9.694666666666667e-06,
      "loss": 2.5096,
      "step": 6375
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.49836723352839235,
      "learning_rate": 9.68911111111111e-06,
      "loss": 2.4995,
      "step": 6400
    },
    {
      "epoch": 0.128,
      "eval_loss": 2.510023593902588,
      "eval_runtime": 31.6077,
      "eval_samples_per_second": 3.354,
      "eval_steps_per_second": 0.854,
      "step": 6400
    },
    {
      "epoch": 0.1285,
      "grad_norm": 0.5413116858337882,
      "learning_rate": 9.683555555555556e-06,
      "loss": 2.4997,
      "step": 6425
    },
    {
      "epoch": 0.129,
      "grad_norm": 0.5192425593604233,
      "learning_rate": 9.678000000000001e-06,
      "loss": 2.4985,
      "step": 6450
    },
    {
      "epoch": 0.1295,
      "grad_norm": 0.543683383393961,
      "learning_rate": 9.672444444444445e-06,
      "loss": 2.4905,
      "step": 6475
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5120901133193708,
      "learning_rate": 9.66688888888889e-06,
      "loss": 2.4981,
      "step": 6500
    },
    {
      "epoch": 0.13,
      "eval_loss": 2.5097286701202393,
      "eval_runtime": 31.6399,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 6500
    },
    {
      "epoch": 0.1305,
      "grad_norm": 0.6094958786556292,
      "learning_rate": 9.661333333333334e-06,
      "loss": 2.5072,
      "step": 6525
    },
    {
      "epoch": 0.131,
      "grad_norm": 0.5072948460719591,
      "learning_rate": 9.655777777777779e-06,
      "loss": 2.4927,
      "step": 6550
    },
    {
      "epoch": 0.1315,
      "grad_norm": 0.623957969467135,
      "learning_rate": 9.650222222222222e-06,
      "loss": 2.5075,
      "step": 6575
    },
    {
      "epoch": 0.132,
      "grad_norm": 0.4720667981244025,
      "learning_rate": 9.644666666666668e-06,
      "loss": 2.5004,
      "step": 6600
    },
    {
      "epoch": 0.132,
      "eval_loss": 2.5094339847564697,
      "eval_runtime": 31.6371,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 6600
    },
    {
      "epoch": 0.1325,
      "grad_norm": 0.6015585416072105,
      "learning_rate": 9.639111111111113e-06,
      "loss": 2.5031,
      "step": 6625
    },
    {
      "epoch": 0.133,
      "grad_norm": 0.5046082226722687,
      "learning_rate": 9.633555555555556e-06,
      "loss": 2.4909,
      "step": 6650
    },
    {
      "epoch": 0.1335,
      "grad_norm": 0.48445442127855576,
      "learning_rate": 9.628e-06,
      "loss": 2.5076,
      "step": 6675
    },
    {
      "epoch": 0.134,
      "grad_norm": 0.560939985354956,
      "learning_rate": 9.622444444444445e-06,
      "loss": 2.5048,
      "step": 6700
    },
    {
      "epoch": 0.134,
      "eval_loss": 2.5088443756103516,
      "eval_runtime": 31.6114,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 6700
    },
    {
      "epoch": 0.1345,
      "grad_norm": 0.4688522723722928,
      "learning_rate": 9.61688888888889e-06,
      "loss": 2.4975,
      "step": 6725
    },
    {
      "epoch": 0.135,
      "grad_norm": 0.485594338083258,
      "learning_rate": 9.611333333333334e-06,
      "loss": 2.4913,
      "step": 6750
    },
    {
      "epoch": 0.1355,
      "grad_norm": 0.5040897875178989,
      "learning_rate": 9.605777777777778e-06,
      "loss": 2.4943,
      "step": 6775
    },
    {
      "epoch": 0.136,
      "grad_norm": 0.5221567713674383,
      "learning_rate": 9.600222222222223e-06,
      "loss": 2.5075,
      "step": 6800
    },
    {
      "epoch": 0.136,
      "eval_loss": 2.5088443756103516,
      "eval_runtime": 31.6782,
      "eval_samples_per_second": 3.346,
      "eval_steps_per_second": 0.852,
      "step": 6800
    },
    {
      "epoch": 0.1365,
      "grad_norm": 0.5082542008947744,
      "learning_rate": 9.594666666666668e-06,
      "loss": 2.4978,
      "step": 6825
    },
    {
      "epoch": 0.137,
      "grad_norm": 0.5524384559495555,
      "learning_rate": 9.589111111111112e-06,
      "loss": 2.4972,
      "step": 6850
    },
    {
      "epoch": 0.1375,
      "grad_norm": 0.7161574482434298,
      "learning_rate": 9.583555555555555e-06,
      "loss": 2.4975,
      "step": 6875
    },
    {
      "epoch": 0.138,
      "grad_norm": 0.5149515733981297,
      "learning_rate": 9.578e-06,
      "loss": 2.4907,
      "step": 6900
    },
    {
      "epoch": 0.138,
      "eval_loss": 2.508549451828003,
      "eval_runtime": 31.6469,
      "eval_samples_per_second": 3.349,
      "eval_steps_per_second": 0.853,
      "step": 6900
    },
    {
      "epoch": 0.1385,
      "grad_norm": 0.49397824038426996,
      "learning_rate": 9.572444444444446e-06,
      "loss": 2.5014,
      "step": 6925
    },
    {
      "epoch": 0.139,
      "grad_norm": 0.6097004085544548,
      "learning_rate": 9.56688888888889e-06,
      "loss": 2.4954,
      "step": 6950
    },
    {
      "epoch": 0.1395,
      "grad_norm": 0.49894922737806585,
      "learning_rate": 9.561333333333333e-06,
      "loss": 2.4985,
      "step": 6975
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5218723910214107,
      "learning_rate": 9.555777777777778e-06,
      "loss": 2.5004,
      "step": 7000
    },
    {
      "epoch": 0.14,
      "eval_loss": 2.508549451828003,
      "eval_runtime": 31.5947,
      "eval_samples_per_second": 3.355,
      "eval_steps_per_second": 0.855,
      "step": 7000
    },
    {
      "epoch": 0.1405,
      "grad_norm": 0.563499806545184,
      "learning_rate": 9.550222222222223e-06,
      "loss": 2.4977,
      "step": 7025
    },
    {
      "epoch": 0.141,
      "grad_norm": 0.5009758538726304,
      "learning_rate": 9.544666666666667e-06,
      "loss": 2.4952,
      "step": 7050
    },
    {
      "epoch": 0.1415,
      "grad_norm": 0.4508864187267148,
      "learning_rate": 9.539111111111112e-06,
      "loss": 2.508,
      "step": 7075
    },
    {
      "epoch": 0.142,
      "grad_norm": 0.4912390956522406,
      "learning_rate": 9.533555555555556e-06,
      "loss": 2.4966,
      "step": 7100
    },
    {
      "epoch": 0.142,
      "eval_loss": 2.5082547664642334,
      "eval_runtime": 33.4326,
      "eval_samples_per_second": 3.171,
      "eval_steps_per_second": 0.808,
      "step": 7100
    },
    {
      "epoch": 0.1425,
      "grad_norm": 0.49279878561988544,
      "learning_rate": 9.528000000000001e-06,
      "loss": 2.4968,
      "step": 7125
    },
    {
      "epoch": 0.143,
      "grad_norm": 0.46664155679935654,
      "learning_rate": 9.522444444444444e-06,
      "loss": 2.4895,
      "step": 7150
    },
    {
      "epoch": 0.1435,
      "grad_norm": 0.5124511409909606,
      "learning_rate": 9.51688888888889e-06,
      "loss": 2.4915,
      "step": 7175
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.47556388802117383,
      "learning_rate": 9.511333333333335e-06,
      "loss": 2.4936,
      "step": 7200
    },
    {
      "epoch": 0.144,
      "eval_loss": 2.5082547664642334,
      "eval_runtime": 33.449,
      "eval_samples_per_second": 3.169,
      "eval_steps_per_second": 0.807,
      "step": 7200
    },
    {
      "epoch": 0.1445,
      "grad_norm": 0.48653320400655387,
      "learning_rate": 9.505777777777779e-06,
      "loss": 2.5018,
      "step": 7225
    },
    {
      "epoch": 0.145,
      "grad_norm": 0.5047213279832499,
      "learning_rate": 9.500222222222222e-06,
      "loss": 2.4988,
      "step": 7250
    },
    {
      "epoch": 0.1455,
      "grad_norm": 0.5400569539883815,
      "learning_rate": 9.494666666666667e-06,
      "loss": 2.506,
      "step": 7275
    },
    {
      "epoch": 0.146,
      "grad_norm": 0.4719790037079782,
      "learning_rate": 9.489111111111113e-06,
      "loss": 2.5052,
      "step": 7300
    },
    {
      "epoch": 0.146,
      "eval_loss": 2.5082547664642334,
      "eval_runtime": 32.1166,
      "eval_samples_per_second": 3.3,
      "eval_steps_per_second": 0.841,
      "step": 7300
    },
    {
      "epoch": 0.1465,
      "grad_norm": 0.4614427746650018,
      "learning_rate": 9.483555555555556e-06,
      "loss": 2.4915,
      "step": 7325
    },
    {
      "epoch": 0.147,
      "grad_norm": 0.445520399417109,
      "learning_rate": 9.478e-06,
      "loss": 2.4854,
      "step": 7350
    },
    {
      "epoch": 0.1475,
      "grad_norm": 0.5186998152774688,
      "learning_rate": 9.472444444444445e-06,
      "loss": 2.5034,
      "step": 7375
    },
    {
      "epoch": 0.148,
      "grad_norm": 0.5220314227255131,
      "learning_rate": 9.46688888888889e-06,
      "loss": 2.5027,
      "step": 7400
    },
    {
      "epoch": 0.148,
      "eval_loss": 2.5079598426818848,
      "eval_runtime": 31.6827,
      "eval_samples_per_second": 3.346,
      "eval_steps_per_second": 0.852,
      "step": 7400
    },
    {
      "epoch": 0.1485,
      "grad_norm": 0.4801927645172527,
      "learning_rate": 9.461333333333334e-06,
      "loss": 2.4944,
      "step": 7425
    },
    {
      "epoch": 0.149,
      "grad_norm": 0.5083289818755181,
      "learning_rate": 9.455777777777777e-06,
      "loss": 2.4968,
      "step": 7450
    },
    {
      "epoch": 0.1495,
      "grad_norm": 0.5279857420863452,
      "learning_rate": 9.450222222222223e-06,
      "loss": 2.4943,
      "step": 7475
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46632473469022884,
      "learning_rate": 9.444666666666668e-06,
      "loss": 2.4888,
      "step": 7500
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.5073702335357666,
      "eval_runtime": 31.6038,
      "eval_samples_per_second": 3.354,
      "eval_steps_per_second": 0.854,
      "step": 7500
    },
    {
      "epoch": 0.1505,
      "grad_norm": 0.49040227635264855,
      "learning_rate": 9.439111111111111e-06,
      "loss": 2.501,
      "step": 7525
    },
    {
      "epoch": 0.151,
      "grad_norm": 0.47705017863255805,
      "learning_rate": 9.433555555555557e-06,
      "loss": 2.496,
      "step": 7550
    },
    {
      "epoch": 0.1515,
      "grad_norm": 0.5043629708475141,
      "learning_rate": 9.428e-06,
      "loss": 2.5044,
      "step": 7575
    },
    {
      "epoch": 0.152,
      "grad_norm": 0.5031322287130929,
      "learning_rate": 9.422444444444445e-06,
      "loss": 2.5059,
      "step": 7600
    },
    {
      "epoch": 0.152,
      "eval_loss": 2.5067806243896484,
      "eval_runtime": 31.7068,
      "eval_samples_per_second": 3.343,
      "eval_steps_per_second": 0.852,
      "step": 7600
    },
    {
      "epoch": 0.1525,
      "grad_norm": 0.5134164370121488,
      "learning_rate": 9.41688888888889e-06,
      "loss": 2.5024,
      "step": 7625
    },
    {
      "epoch": 0.153,
      "grad_norm": 0.4623704562763065,
      "learning_rate": 9.411333333333334e-06,
      "loss": 2.501,
      "step": 7650
    },
    {
      "epoch": 0.1535,
      "grad_norm": 0.49559420602071524,
      "learning_rate": 9.405777777777778e-06,
      "loss": 2.5093,
      "step": 7675
    },
    {
      "epoch": 0.154,
      "grad_norm": 0.5243071177219503,
      "learning_rate": 9.400222222222223e-06,
      "loss": 2.4945,
      "step": 7700
    },
    {
      "epoch": 0.154,
      "eval_loss": 2.5073702335357666,
      "eval_runtime": 31.6912,
      "eval_samples_per_second": 3.345,
      "eval_steps_per_second": 0.852,
      "step": 7700
    },
    {
      "epoch": 0.1545,
      "grad_norm": 0.5073458932892907,
      "learning_rate": 9.394666666666668e-06,
      "loss": 2.4941,
      "step": 7725
    },
    {
      "epoch": 0.155,
      "grad_norm": 0.5788636950869732,
      "learning_rate": 9.389111111111112e-06,
      "loss": 2.4922,
      "step": 7750
    },
    {
      "epoch": 0.1555,
      "grad_norm": 0.4512531421146986,
      "learning_rate": 9.383555555555557e-06,
      "loss": 2.4765,
      "step": 7775
    },
    {
      "epoch": 0.156,
      "grad_norm": 0.49522295115785536,
      "learning_rate": 9.378e-06,
      "loss": 2.5012,
      "step": 7800
    },
    {
      "epoch": 0.156,
      "eval_loss": 2.507075548171997,
      "eval_runtime": 31.6414,
      "eval_samples_per_second": 3.35,
      "eval_steps_per_second": 0.853,
      "step": 7800
    },
    {
      "epoch": 0.1565,
      "grad_norm": 0.47848211440373783,
      "learning_rate": 9.372444444444446e-06,
      "loss": 2.5,
      "step": 7825
    },
    {
      "epoch": 0.157,
      "grad_norm": 0.4640110840807158,
      "learning_rate": 9.36688888888889e-06,
      "loss": 2.4955,
      "step": 7850
    },
    {
      "epoch": 0.1575,
      "grad_norm": 0.5396945826650712,
      "learning_rate": 9.361333333333335e-06,
      "loss": 2.4878,
      "step": 7875
    },
    {
      "epoch": 0.158,
      "grad_norm": 0.46462373787773387,
      "learning_rate": 9.355777777777778e-06,
      "loss": 2.4996,
      "step": 7900
    },
    {
      "epoch": 0.158,
      "eval_loss": 2.507075548171997,
      "eval_runtime": 31.7182,
      "eval_samples_per_second": 3.342,
      "eval_steps_per_second": 0.851,
      "step": 7900
    },
    {
      "epoch": 0.1585,
      "grad_norm": 0.47428789515219244,
      "learning_rate": 9.350222222222224e-06,
      "loss": 2.5048,
      "step": 7925
    },
    {
      "epoch": 0.159,
      "grad_norm": 0.5086252587406799,
      "learning_rate": 9.344666666666667e-06,
      "loss": 2.495,
      "step": 7950
    },
    {
      "epoch": 0.1595,
      "grad_norm": 0.5063443688127869,
      "learning_rate": 9.339111111111112e-06,
      "loss": 2.4941,
      "step": 7975
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5048581245780791,
      "learning_rate": 9.333555555555558e-06,
      "loss": 2.501,
      "step": 8000
    },
    {
      "epoch": 0.16,
      "eval_loss": 2.5067806243896484,
      "eval_runtime": 31.6901,
      "eval_samples_per_second": 3.345,
      "eval_steps_per_second": 0.852,
      "step": 8000
    },
    {
      "epoch": 0.1605,
      "grad_norm": 0.5643292039022151,
      "learning_rate": 9.328000000000001e-06,
      "loss": 2.5023,
      "step": 8025
    },
    {
      "epoch": 0.161,
      "grad_norm": 0.4727327148593234,
      "learning_rate": 9.322444444444445e-06,
      "loss": 2.4994,
      "step": 8050
    },
    {
      "epoch": 0.1615,
      "grad_norm": 0.45408437785378586,
      "learning_rate": 9.31688888888889e-06,
      "loss": 2.4915,
      "step": 8075
    },
    {
      "epoch": 0.162,
      "grad_norm": 0.458839332576604,
      "learning_rate": 9.311333333333335e-06,
      "loss": 2.4971,
      "step": 8100
    },
    {
      "epoch": 0.162,
      "eval_loss": 2.5067806243896484,
      "eval_runtime": 31.6662,
      "eval_samples_per_second": 3.347,
      "eval_steps_per_second": 0.853,
      "step": 8100
    },
    {
      "epoch": 0.1625,
      "grad_norm": 0.4639797537335715,
      "learning_rate": 9.305777777777779e-06,
      "loss": 2.4961,
      "step": 8125
    },
    {
      "epoch": 0.163,
      "grad_norm": 0.46286744081281633,
      "learning_rate": 9.300222222222222e-06,
      "loss": 2.491,
      "step": 8150
    },
    {
      "epoch": 0.1635,
      "grad_norm": 0.4921652771211608,
      "learning_rate": 9.294666666666668e-06,
      "loss": 2.4885,
      "step": 8175
    },
    {
      "epoch": 0.164,
      "grad_norm": 0.4593448087813921,
      "learning_rate": 9.289111111111113e-06,
      "loss": 2.4976,
      "step": 8200
    },
    {
      "epoch": 0.164,
      "eval_loss": 2.5061910152435303,
      "eval_runtime": 31.7395,
      "eval_samples_per_second": 3.34,
      "eval_steps_per_second": 0.851,
      "step": 8200
    },
    {
      "epoch": 0.1645,
      "grad_norm": 0.4714716672374406,
      "learning_rate": 9.283555555555556e-06,
      "loss": 2.4899,
      "step": 8225
    },
    {
      "epoch": 0.165,
      "grad_norm": 0.46793052489676595,
      "learning_rate": 9.278e-06,
      "loss": 2.4929,
      "step": 8250
    },
    {
      "epoch": 0.1655,
      "grad_norm": 0.488049297756729,
      "learning_rate": 9.272444444444445e-06,
      "loss": 2.4972,
      "step": 8275
    },
    {
      "epoch": 0.166,
      "grad_norm": 0.43609720972184396,
      "learning_rate": 9.26688888888889e-06,
      "loss": 2.4902,
      "step": 8300
    },
    {
      "epoch": 0.166,
      "eval_loss": 2.5061910152435303,
      "eval_runtime": 31.61,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 8300
    },
    {
      "epoch": 0.1665,
      "grad_norm": 0.51494306682902,
      "learning_rate": 9.261333333333334e-06,
      "loss": 2.5017,
      "step": 8325
    },
    {
      "epoch": 0.167,
      "grad_norm": 0.43687456366636745,
      "learning_rate": 9.25577777777778e-06,
      "loss": 2.4842,
      "step": 8350
    },
    {
      "epoch": 0.1675,
      "grad_norm": 0.4398983603701802,
      "learning_rate": 9.250222222222223e-06,
      "loss": 2.4883,
      "step": 8375
    },
    {
      "epoch": 0.168,
      "grad_norm": 0.44766592452770393,
      "learning_rate": 9.244666666666668e-06,
      "loss": 2.4924,
      "step": 8400
    },
    {
      "epoch": 0.168,
      "eval_loss": 2.5058963298797607,
      "eval_runtime": 31.6191,
      "eval_samples_per_second": 3.352,
      "eval_steps_per_second": 0.854,
      "step": 8400
    },
    {
      "epoch": 0.1685,
      "grad_norm": 0.5420691250593338,
      "learning_rate": 9.239111111111112e-06,
      "loss": 2.498,
      "step": 8425
    },
    {
      "epoch": 0.169,
      "grad_norm": 0.486342998144357,
      "learning_rate": 9.233555555555557e-06,
      "loss": 2.4963,
      "step": 8450
    },
    {
      "epoch": 0.1695,
      "grad_norm": 0.47737125328195895,
      "learning_rate": 9.228e-06,
      "loss": 2.4911,
      "step": 8475
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.45349557813678815,
      "learning_rate": 9.222444444444446e-06,
      "loss": 2.4875,
      "step": 8500
    },
    {
      "epoch": 0.17,
      "eval_loss": 2.505601406097412,
      "eval_runtime": 31.689,
      "eval_samples_per_second": 3.345,
      "eval_steps_per_second": 0.852,
      "step": 8500
    },
    {
      "epoch": 0.1705,
      "grad_norm": 0.4796880606629406,
      "learning_rate": 9.21688888888889e-06,
      "loss": 2.497,
      "step": 8525
    },
    {
      "epoch": 0.171,
      "grad_norm": 0.47434802884790866,
      "learning_rate": 9.211333333333334e-06,
      "loss": 2.4868,
      "step": 8550
    },
    {
      "epoch": 0.1715,
      "grad_norm": 0.45594445468586775,
      "learning_rate": 9.20577777777778e-06,
      "loss": 2.4946,
      "step": 8575
    },
    {
      "epoch": 0.172,
      "grad_norm": 0.47122307827537663,
      "learning_rate": 9.200222222222223e-06,
      "loss": 2.4921,
      "step": 8600
    },
    {
      "epoch": 0.172,
      "eval_loss": 2.5053067207336426,
      "eval_runtime": 31.6154,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 8600
    },
    {
      "epoch": 0.1725,
      "grad_norm": 0.49346597298990835,
      "learning_rate": 9.194666666666667e-06,
      "loss": 2.4904,
      "step": 8625
    },
    {
      "epoch": 0.173,
      "grad_norm": 0.44191548376332535,
      "learning_rate": 9.189111111111112e-06,
      "loss": 2.4889,
      "step": 8650
    },
    {
      "epoch": 0.1735,
      "grad_norm": 0.4584560431283127,
      "learning_rate": 9.183555555555557e-06,
      "loss": 2.4946,
      "step": 8675
    },
    {
      "epoch": 0.174,
      "grad_norm": 0.4583103938160734,
      "learning_rate": 9.178000000000001e-06,
      "loss": 2.497,
      "step": 8700
    },
    {
      "epoch": 0.174,
      "eval_loss": 2.505011796951294,
      "eval_runtime": 33.293,
      "eval_samples_per_second": 3.184,
      "eval_steps_per_second": 0.811,
      "step": 8700
    },
    {
      "epoch": 0.1745,
      "grad_norm": 0.4282508677893212,
      "learning_rate": 9.172444444444444e-06,
      "loss": 2.4905,
      "step": 8725
    },
    {
      "epoch": 0.175,
      "grad_norm": 0.4799435951689765,
      "learning_rate": 9.16688888888889e-06,
      "loss": 2.4945,
      "step": 8750
    },
    {
      "epoch": 0.1755,
      "grad_norm": 0.47295693237440145,
      "learning_rate": 9.161333333333335e-06,
      "loss": 2.4872,
      "step": 8775
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.4293829472868077,
      "learning_rate": 9.155777777777779e-06,
      "loss": 2.491,
      "step": 8800
    },
    {
      "epoch": 0.176,
      "eval_loss": 2.5047168731689453,
      "eval_runtime": 33.529,
      "eval_samples_per_second": 3.161,
      "eval_steps_per_second": 0.805,
      "step": 8800
    },
    {
      "epoch": 0.1765,
      "grad_norm": 0.4948989086561893,
      "learning_rate": 9.150222222222222e-06,
      "loss": 2.498,
      "step": 8825
    },
    {
      "epoch": 0.177,
      "grad_norm": 0.46905017505428037,
      "learning_rate": 9.144666666666667e-06,
      "loss": 2.4872,
      "step": 8850
    },
    {
      "epoch": 0.1775,
      "grad_norm": 0.4706274420773099,
      "learning_rate": 9.139111111111113e-06,
      "loss": 2.4879,
      "step": 8875
    },
    {
      "epoch": 0.178,
      "grad_norm": 0.439079741715738,
      "learning_rate": 9.133555555555556e-06,
      "loss": 2.4836,
      "step": 8900
    },
    {
      "epoch": 0.178,
      "eval_loss": 2.504422187805176,
      "eval_runtime": 31.6179,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 8900
    },
    {
      "epoch": 0.1785,
      "grad_norm": 0.5257446524841846,
      "learning_rate": 9.128e-06,
      "loss": 2.477,
      "step": 8925
    },
    {
      "epoch": 0.179,
      "grad_norm": 0.495973361699502,
      "learning_rate": 9.122444444444445e-06,
      "loss": 2.492,
      "step": 8950
    },
    {
      "epoch": 0.1795,
      "grad_norm": 0.44404234473403686,
      "learning_rate": 9.11688888888889e-06,
      "loss": 2.4966,
      "step": 8975
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.48259834253773454,
      "learning_rate": 9.111333333333334e-06,
      "loss": 2.4999,
      "step": 9000
    },
    {
      "epoch": 0.18,
      "eval_loss": 2.5047168731689453,
      "eval_runtime": 31.5925,
      "eval_samples_per_second": 3.355,
      "eval_steps_per_second": 0.855,
      "step": 9000
    },
    {
      "epoch": 0.1805,
      "grad_norm": 0.4421775299979092,
      "learning_rate": 9.105777777777779e-06,
      "loss": 2.5015,
      "step": 9025
    },
    {
      "epoch": 0.181,
      "grad_norm": 0.4634033140014565,
      "learning_rate": 9.100222222222223e-06,
      "loss": 2.5039,
      "step": 9050
    },
    {
      "epoch": 0.1815,
      "grad_norm": 0.46159115578461074,
      "learning_rate": 9.094666666666668e-06,
      "loss": 2.5008,
      "step": 9075
    },
    {
      "epoch": 0.182,
      "grad_norm": 0.449669813485736,
      "learning_rate": 9.089111111111111e-06,
      "loss": 2.5009,
      "step": 9100
    },
    {
      "epoch": 0.182,
      "eval_loss": 2.504422187805176,
      "eval_runtime": 31.7112,
      "eval_samples_per_second": 3.343,
      "eval_steps_per_second": 0.851,
      "step": 9100
    },
    {
      "epoch": 0.1825,
      "grad_norm": 0.4624450881526358,
      "learning_rate": 9.083555555555557e-06,
      "loss": 2.4878,
      "step": 9125
    },
    {
      "epoch": 0.183,
      "grad_norm": 0.4759040871891137,
      "learning_rate": 9.078000000000002e-06,
      "loss": 2.4949,
      "step": 9150
    },
    {
      "epoch": 0.1835,
      "grad_norm": 0.4565317959105483,
      "learning_rate": 9.072444444444445e-06,
      "loss": 2.5008,
      "step": 9175
    },
    {
      "epoch": 0.184,
      "grad_norm": 0.6027882705089656,
      "learning_rate": 9.066888888888889e-06,
      "loss": 2.4831,
      "step": 9200
    },
    {
      "epoch": 0.184,
      "eval_loss": 2.5038325786590576,
      "eval_runtime": 31.8272,
      "eval_samples_per_second": 3.33,
      "eval_steps_per_second": 0.848,
      "step": 9200
    },
    {
      "epoch": 0.1845,
      "grad_norm": 0.4672088128196563,
      "learning_rate": 9.061333333333334e-06,
      "loss": 2.4929,
      "step": 9225
    },
    {
      "epoch": 0.185,
      "grad_norm": 0.425744444651012,
      "learning_rate": 9.05577777777778e-06,
      "loss": 2.4979,
      "step": 9250
    },
    {
      "epoch": 0.1855,
      "grad_norm": 0.4127999381509735,
      "learning_rate": 9.050222222222223e-06,
      "loss": 2.5065,
      "step": 9275
    },
    {
      "epoch": 0.186,
      "grad_norm": 0.45683795031899443,
      "learning_rate": 9.044666666666667e-06,
      "loss": 2.4971,
      "step": 9300
    },
    {
      "epoch": 0.186,
      "eval_loss": 2.504127264022827,
      "eval_runtime": 31.6049,
      "eval_samples_per_second": 3.354,
      "eval_steps_per_second": 0.854,
      "step": 9300
    },
    {
      "epoch": 0.1865,
      "grad_norm": 0.47360766082322153,
      "learning_rate": 9.039111111111112e-06,
      "loss": 2.491,
      "step": 9325
    },
    {
      "epoch": 0.187,
      "grad_norm": 0.5526247307925498,
      "learning_rate": 9.033555555555557e-06,
      "loss": 2.4934,
      "step": 9350
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.4670755026657148,
      "learning_rate": 9.028e-06,
      "loss": 2.5025,
      "step": 9375
    },
    {
      "epoch": 0.188,
      "grad_norm": 0.45668031478164683,
      "learning_rate": 9.022444444444444e-06,
      "loss": 2.4892,
      "step": 9400
    },
    {
      "epoch": 0.188,
      "eval_loss": 2.5038325786590576,
      "eval_runtime": 31.8115,
      "eval_samples_per_second": 3.332,
      "eval_steps_per_second": 0.849,
      "step": 9400
    },
    {
      "epoch": 0.1885,
      "grad_norm": 0.4393528481721735,
      "learning_rate": 9.01688888888889e-06,
      "loss": 2.4993,
      "step": 9425
    },
    {
      "epoch": 0.189,
      "grad_norm": 0.49694977951670527,
      "learning_rate": 9.011333333333335e-06,
      "loss": 2.486,
      "step": 9450
    },
    {
      "epoch": 0.1895,
      "grad_norm": 0.45862304441087315,
      "learning_rate": 9.005777777777778e-06,
      "loss": 2.484,
      "step": 9475
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4403368479751325,
      "learning_rate": 9.000222222222222e-06,
      "loss": 2.4839,
      "step": 9500
    },
    {
      "epoch": 0.19,
      "eval_loss": 2.5032429695129395,
      "eval_runtime": 31.7192,
      "eval_samples_per_second": 3.342,
      "eval_steps_per_second": 0.851,
      "step": 9500
    },
    {
      "epoch": 0.1905,
      "grad_norm": 0.48763976397960673,
      "learning_rate": 8.994666666666667e-06,
      "loss": 2.4946,
      "step": 9525
    },
    {
      "epoch": 0.191,
      "grad_norm": 0.46329003827956744,
      "learning_rate": 8.989111111111112e-06,
      "loss": 2.5064,
      "step": 9550
    },
    {
      "epoch": 0.1915,
      "grad_norm": 0.3980817630959744,
      "learning_rate": 8.983555555555556e-06,
      "loss": 2.4932,
      "step": 9575
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.5009684981679573,
      "learning_rate": 8.978000000000001e-06,
      "loss": 2.4963,
      "step": 9600
    },
    {
      "epoch": 0.192,
      "eval_loss": 2.503537654876709,
      "eval_runtime": 31.5776,
      "eval_samples_per_second": 3.357,
      "eval_steps_per_second": 0.855,
      "step": 9600
    },
    {
      "epoch": 0.1925,
      "grad_norm": 0.43627846543007903,
      "learning_rate": 8.972444444444445e-06,
      "loss": 2.4799,
      "step": 9625
    },
    {
      "epoch": 0.193,
      "grad_norm": 0.4341220630570628,
      "learning_rate": 8.96688888888889e-06,
      "loss": 2.4939,
      "step": 9650
    },
    {
      "epoch": 0.1935,
      "grad_norm": 0.5248960220872864,
      "learning_rate": 8.961333333333333e-06,
      "loss": 2.4983,
      "step": 9675
    },
    {
      "epoch": 0.194,
      "grad_norm": 0.5205641262868196,
      "learning_rate": 8.955777777777779e-06,
      "loss": 2.4992,
      "step": 9700
    },
    {
      "epoch": 0.194,
      "eval_loss": 2.5032429695129395,
      "eval_runtime": 31.6005,
      "eval_samples_per_second": 3.354,
      "eval_steps_per_second": 0.854,
      "step": 9700
    },
    {
      "epoch": 0.1945,
      "grad_norm": 0.42707875009123103,
      "learning_rate": 8.950222222222224e-06,
      "loss": 2.5017,
      "step": 9725
    },
    {
      "epoch": 0.195,
      "grad_norm": 0.4648079275311894,
      "learning_rate": 8.944666666666668e-06,
      "loss": 2.4998,
      "step": 9750
    },
    {
      "epoch": 0.1955,
      "grad_norm": 0.43005920693607586,
      "learning_rate": 8.939111111111111e-06,
      "loss": 2.4971,
      "step": 9775
    },
    {
      "epoch": 0.196,
      "grad_norm": 0.45585903163769387,
      "learning_rate": 8.933555555555556e-06,
      "loss": 2.493,
      "step": 9800
    },
    {
      "epoch": 0.196,
      "eval_loss": 2.502948045730591,
      "eval_runtime": 31.632,
      "eval_samples_per_second": 3.351,
      "eval_steps_per_second": 0.854,
      "step": 9800
    },
    {
      "epoch": 0.1965,
      "grad_norm": 0.4266057927636531,
      "learning_rate": 8.928000000000002e-06,
      "loss": 2.5011,
      "step": 9825
    },
    {
      "epoch": 0.197,
      "grad_norm": 0.43778187408753183,
      "learning_rate": 8.922444444444445e-06,
      "loss": 2.4951,
      "step": 9850
    },
    {
      "epoch": 0.1975,
      "grad_norm": 0.5338200834169559,
      "learning_rate": 8.916888888888889e-06,
      "loss": 2.4896,
      "step": 9875
    },
    {
      "epoch": 0.198,
      "grad_norm": 0.46823595750617164,
      "learning_rate": 8.911333333333334e-06,
      "loss": 2.4845,
      "step": 9900
    },
    {
      "epoch": 0.198,
      "eval_loss": 2.5023584365844727,
      "eval_runtime": 31.6857,
      "eval_samples_per_second": 3.345,
      "eval_steps_per_second": 0.852,
      "step": 9900
    },
    {
      "epoch": 0.1985,
      "grad_norm": 0.4570575398172366,
      "learning_rate": 8.90577777777778e-06,
      "loss": 2.4864,
      "step": 9925
    },
    {
      "epoch": 0.199,
      "grad_norm": 0.42166301716080085,
      "learning_rate": 8.900222222222223e-06,
      "loss": 2.4931,
      "step": 9950
    },
    {
      "epoch": 0.1995,
      "grad_norm": 0.47358354147378096,
      "learning_rate": 8.894666666666666e-06,
      "loss": 2.4953,
      "step": 9975
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4390332031938933,
      "learning_rate": 8.889111111111112e-06,
      "loss": 2.4855,
      "step": 10000
    },
    {
      "epoch": 0.2,
      "eval_loss": 2.502948045730591,
      "eval_runtime": 31.6124,
      "eval_samples_per_second": 3.353,
      "eval_steps_per_second": 0.854,
      "step": 10000
    },
    {
      "epoch": 0.2005,
      "grad_norm": 0.4366599313768622,
      "learning_rate": 8.883555555555557e-06,
      "loss": 2.5065,
      "step": 10025
    },
    {
      "epoch": 0.201,
      "grad_norm": 0.41140266099356065,
      "learning_rate": 8.878e-06,
      "loss": 2.5008,
      "step": 10050
    },
    {
      "epoch": 0.2015,
      "grad_norm": 0.43905042554021645,
      "learning_rate": 8.872444444444444e-06,
      "loss": 2.4883,
      "step": 10075
    },
    {
      "epoch": 0.202,
      "grad_norm": 0.43926747314424747,
      "learning_rate": 8.86688888888889e-06,
      "loss": 2.4858,
      "step": 10100
    },
    {
      "epoch": 0.202,
      "eval_loss": 2.5026533603668213,
      "eval_runtime": 33.7529,
      "eval_samples_per_second": 3.14,
      "eval_steps_per_second": 0.8,
      "step": 10100
    },
    {
      "epoch": 0.2025,
      "grad_norm": 0.4573967588072801,
      "learning_rate": 8.861333333333334e-06,
      "loss": 2.4946,
      "step": 10125
    },
    {
      "epoch": 0.203,
      "grad_norm": 0.44102158236984695,
      "learning_rate": 8.855777777777778e-06,
      "loss": 2.4959,
      "step": 10150
    },
    {
      "epoch": 0.2035,
      "grad_norm": 0.4244034611509627,
      "learning_rate": 8.850222222222223e-06,
      "loss": 2.4882,
      "step": 10175
    },
    {
      "epoch": 0.204,
      "grad_norm": 0.4292353602313773,
      "learning_rate": 8.844666666666667e-06,
      "loss": 2.475,
      "step": 10200
    },
    {
      "epoch": 0.204,
      "eval_loss": 2.5026533603668213,
      "eval_runtime": 33.6895,
      "eval_samples_per_second": 3.146,
      "eval_steps_per_second": 0.801,
      "step": 10200
    },
    {
      "epoch": 0.2045,
      "grad_norm": 0.43537766637284453,
      "learning_rate": 8.839111111111112e-06,
      "loss": 2.4919,
      "step": 10225
    },
    {
      "epoch": 0.205,
      "grad_norm": 0.42814122374245395,
      "learning_rate": 8.833555555555556e-06,
      "loss": 2.4937,
      "step": 10250
    },
    {
      "epoch": 0.2055,
      "grad_norm": 0.4112227358131473,
      "learning_rate": 8.828000000000001e-06,
      "loss": 2.4898,
      "step": 10275
    },
    {
      "epoch": 0.206,
      "grad_norm": 0.4351870367519067,
      "learning_rate": 8.822444444444446e-06,
      "loss": 2.4881,
      "step": 10300
    },
    {
      "epoch": 0.206,
      "eval_loss": 2.5023584365844727,
      "eval_runtime": 33.435,
      "eval_samples_per_second": 3.17,
      "eval_steps_per_second": 0.808,
      "step": 10300
    },
    {
      "epoch": 0.2065,
      "grad_norm": 0.4263308787171397,
      "learning_rate": 8.81688888888889e-06,
      "loss": 2.475,
      "step": 10325
    },
    {
      "epoch": 0.207,
      "grad_norm": 0.45579928417932,
      "learning_rate": 8.811333333333333e-06,
      "loss": 2.4943,
      "step": 10350
    },
    {
      "epoch": 0.2075,
      "grad_norm": 0.4280704481397019,
      "learning_rate": 8.805777777777778e-06,
      "loss": 2.4845,
      "step": 10375
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.4670479060805604,
      "learning_rate": 8.800222222222224e-06,
      "loss": 2.4903,
      "step": 10400
    },
    {
      "epoch": 0.208,
      "eval_loss": 2.5023584365844727,
      "eval_runtime": 31.6522,
      "eval_samples_per_second": 3.349,
      "eval_steps_per_second": 0.853,
      "step": 10400
    },
    {
      "epoch": 0.2085,
      "grad_norm": 0.43912910279855394,
      "learning_rate": 8.794666666666667e-06,
      "loss": 2.4975,
      "step": 10425
    },
    {
      "epoch": 0.209,
      "grad_norm": 0.4494490825084985,
      "learning_rate": 8.78911111111111e-06,
      "loss": 2.4879,
      "step": 10450
    },
    {
      "epoch": 0.2095,
      "grad_norm": 0.42491374212906596,
      "learning_rate": 8.783555555555556e-06,
      "loss": 2.4964,
      "step": 10475
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.39781460942112506,
      "learning_rate": 8.778000000000001e-06,
      "loss": 2.4927,
      "step": 10500
    },
    {
      "epoch": 0.21,
      "eval_loss": 2.502063751220703,
      "eval_runtime": 31.7621,
      "eval_samples_per_second": 3.337,
      "eval_steps_per_second": 0.85,
      "step": 10500
    },
    {
      "epoch": 0.2105,
      "grad_norm": 0.43424351284899937,
      "learning_rate": 8.772444444444445e-06,
      "loss": 2.4928,
      "step": 10525
    },
    {
      "epoch": 0.211,
      "grad_norm": 0.4295006342308409,
      "learning_rate": 8.766888888888888e-06,
      "loss": 2.487,
      "step": 10550
    },
    {
      "epoch": 0.2115,
      "grad_norm": 0.4237014246862784,
      "learning_rate": 8.761333333333334e-06,
      "loss": 2.4897,
      "step": 10575
    },
    {
      "epoch": 0.212,
      "grad_norm": 0.45856730861474515,
      "learning_rate": 8.755777777777779e-06,
      "loss": 2.4928,
      "step": 10600
    },
    {
      "epoch": 0.212,
      "eval_loss": 2.502063751220703,
      "eval_runtime": 31.7252,
      "eval_samples_per_second": 3.341,
      "eval_steps_per_second": 0.851,
      "step": 10600
    },
    {
      "epoch": 0.2125,
      "grad_norm": 0.41191624399106863,
      "learning_rate": 8.750222222222223e-06,
      "loss": 2.4876,
      "step": 10625
    },
    {
      "epoch": 0.213,
      "grad_norm": 0.46542602416489315,
      "learning_rate": 8.744666666666666e-06,
      "loss": 2.5034,
      "step": 10650
    },
    {
      "epoch": 0.2135,
      "grad_norm": 0.7915220564442529,
      "learning_rate": 8.739111111111111e-06,
      "loss": 2.4834,
      "step": 10675
    },
    {
      "epoch": 0.214,
      "grad_norm": 0.42259767066868636,
      "learning_rate": 8.733555555555557e-06,
      "loss": 2.4854,
      "step": 10700
    },
    {
      "epoch": 0.214,
      "eval_loss": 2.502063751220703,
      "eval_runtime": 31.7022,
      "eval_samples_per_second": 3.344,
      "eval_steps_per_second": 0.852,
      "step": 10700
    },
    {
      "epoch": 0.2145,
      "grad_norm": 0.41123050537861,
      "learning_rate": 8.728e-06,
      "loss": 2.4938,
      "step": 10725
    },
    {
      "epoch": 0.215,
      "grad_norm": 0.45525972565172595,
      "learning_rate": 8.722444444444445e-06,
      "loss": 2.4852,
      "step": 10750
    },
    {
      "epoch": 0.2155,
      "grad_norm": 0.41607212965523915,
      "learning_rate": 8.716888888888889e-06,
      "loss": 2.474,
      "step": 10775
    },
    {
      "epoch": 0.216,
      "grad_norm": 0.39792115019783625,
      "learning_rate": 8.711333333333334e-06,
      "loss": 2.5009,
      "step": 10800
    },
    {
      "epoch": 0.216,
      "eval_loss": 2.502063751220703,
      "eval_runtime": 31.7144,
      "eval_samples_per_second": 3.342,
      "eval_steps_per_second": 0.851,
      "step": 10800
    },
    {
      "epoch": 0.2165,
      "grad_norm": 0.4585655221780486,
      "learning_rate": 8.705777777777778e-06,
      "loss": 2.4916,
      "step": 10825
    },
    {
      "epoch": 0.217,
      "grad_norm": 0.4080298748776425,
      "learning_rate": 8.700222222222223e-06,
      "loss": 2.4902,
      "step": 10850
    },
    {
      "epoch": 0.2175,
      "grad_norm": 0.46957233489171346,
      "learning_rate": 8.694666666666668e-06,
      "loss": 2.4822,
      "step": 10875
    },
    {
      "epoch": 0.218,
      "grad_norm": 0.41478691206301865,
      "learning_rate": 8.689111111111112e-06,
      "loss": 2.4824,
      "step": 10900
    },
    {
      "epoch": 0.218,
      "eval_loss": 2.502063751220703,
      "eval_runtime": 31.8439,
      "eval_samples_per_second": 3.329,
      "eval_steps_per_second": 0.848,
      "step": 10900
    },
    {
      "epoch": 0.2185,
      "grad_norm": 0.42928030409496243,
      "learning_rate": 8.683555555555555e-06,
      "loss": 2.4853,
      "step": 10925
    },
    {
      "epoch": 0.219,
      "grad_norm": 0.41463223470042737,
      "learning_rate": 8.678e-06,
      "loss": 2.4804,
      "step": 10950
    },
    {
      "epoch": 0.2195,
      "grad_norm": 0.42126484160991745,
      "learning_rate": 8.672444444444446e-06,
      "loss": 2.489,
      "step": 10975
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4431696815658413,
      "learning_rate": 8.66688888888889e-06,
      "loss": 2.4897,
      "step": 11000
    },
    {
      "epoch": 0.22,
      "eval_loss": 2.502063751220703,
      "eval_runtime": 31.7255,
      "eval_samples_per_second": 3.341,
      "eval_steps_per_second": 0.851,
      "step": 11000
    }
  ],
  "logging_steps": 25,
  "max_steps": 50000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1301896471634248e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}