Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/ema.safetensors +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/model.safetensors +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/optimizer.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/rng_state.pth +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/scaler.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/scheduler.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/trainer_state.json +1147 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/training_args.bin +3 -0

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:327f0412b3f020b86a9cccd7cdefbd305c15bb222b5000ef01e6649a5c70370c
+size 550088

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80382ec03eaf0a12d28216919382670b75328bb12d7589af7fe3963e1c9c4c50
+size 19331448

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2abb8f2b58e2badd6ef7a62f9c83c87348dafe00dbe24f9f481a95bb7aa5127
+size 1175115

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5e46d1e941b1e6770d70eb593b1d56f6673c57d4816ab6f614779a84f1a34c0
+size 14645

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d65a18be8ad144f1452a4ee733f0265cea6c029232afcd4bec76d99776d19a6
+size 1383

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d4857f67bc6bf15cb08e1beb481bc3347e36ec24fc500bcddd2fd4f7d346731
+size 1465

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1147 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 1024,
+  "global_step": 21651,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011823934229365849,
+      "grad_norm": 0.8327222466468811,
+      "learning_rate": 0.000490234375,
+      "loss": 2.8200738430023193,
+      "step": 256
+    },
+    {
+      "epoch": 0.023647868458731697,
+      "grad_norm": 0.3061302900314331,
+      "learning_rate": 0.000990234375,
+      "loss": 1.868248462677002,
+      "step": 512
+    },
+    {
+      "epoch": 0.03547180268809755,
+      "grad_norm": 0.39593741297721863,
+      "learning_rate": 0.0009996521692610218,
+      "loss": 1.6698616743087769,
+      "step": 768
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "grad_norm": 0.5593295097351074,
+      "learning_rate": 0.0009985813302292343,
+      "loss": 1.608977198600769,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.2846408728595194,
+      "eval_loss": 1.5251963065095144,
+      "eval_mse_loss": 0.9559145632399816,
+      "flow/cos_sim": 0.7153591378910901,
+      "flow/improvement_ratio": 0.47883502166020814,
+      "flow/mag_ratio_mean": 0.7032401169816108,
+      "flow/mag_ratio_std": 0.1494562604281728,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.2846408728595194,
+      "eval_loss": 1.5251963065095144,
+      "eval_mse_loss": 0.9559145632399816,
+      "eval_runtime": 38.0007,
+      "eval_samples_per_second": 736.644,
+      "eval_steps_per_second": 11.526,
+      "flow/cos_sim": 0.7153591378910901,
+      "flow/improvement_ratio": 0.47883502166020814,
+      "flow/mag_ratio_mean": 0.7032401169816108,
+      "flow/mag_ratio_std": 0.1494562604281728,
+      "step": 1024
+    },
+    {
+      "epoch": 0.05911967114682925,
+      "grad_norm": 0.19968454539775848,
+      "learning_rate": 0.0009967888946875527,
+      "loss": 1.5696274042129517,
+      "step": 1280
+    },
+    {
+      "epoch": 0.0709436053761951,
+      "grad_norm": 0.3655131757259369,
+      "learning_rate": 0.0009942774568270404,
+      "loss": 1.5295122861862183,
+      "step": 1536
+    },
+    {
+      "epoch": 0.08276753960556095,
+      "grad_norm": 0.4029371440410614,
+      "learning_rate": 0.0009910506514504561,
+      "loss": 1.4991682767868042,
+      "step": 1792
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "grad_norm": 0.2498495876789093,
+      "learning_rate": 0.0009871131487116083,
+      "loss": 1.4787085056304932,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.25528003949008576,
+      "eval_loss": 1.3903144954546403,
+      "eval_mse_loss": 0.879754417563138,
+      "flow/cos_sim": 0.7447199556109023,
+      "flow/improvement_ratio": 0.47933868948183106,
+      "flow/mag_ratio_mean": 0.7272915401959528,
+      "flow/mag_ratio_std": 0.1570750494151627,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.25528003949008576,
+      "eval_loss": 1.3903144954546403,
+      "eval_mse_loss": 0.879754417563138,
+      "eval_runtime": 37.9969,
+      "eval_samples_per_second": 736.717,
+      "eval_steps_per_second": 11.527,
+      "flow/cos_sim": 0.7447199556109023,
+      "flow/improvement_ratio": 0.47933868948183106,
+      "flow/mag_ratio_mean": 0.7272915401959528,
+      "flow/mag_ratio_std": 0.1570750494151627,
+      "step": 2048
+    },
+    {
+      "epoch": 0.10641540806429264,
+      "grad_norm": 0.940779447555542,
+      "learning_rate": 0.0009824706473562416,
+      "loss": 1.4612160921096802,
+      "step": 2304
+    },
+    {
+      "epoch": 0.1182393422936585,
+      "grad_norm": 0.9774911999702454,
+      "learning_rate": 0.0009771298664742456,
+      "loss": 1.4491184949874878,
+      "step": 2560
+    },
+    {
+      "epoch": 0.13006327652302435,
+      "grad_norm": 0.2685326337814331,
+      "learning_rate": 0.00097109853577512,
+      "loss": 1.4366470575332642,
+      "step": 2816
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "grad_norm": 0.577179491519928,
+      "learning_rate": 0.0009643853844007692,
+      "loss": 1.423431158065796,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.24748063815510982,
+      "eval_loss": 1.3509440585358503,
+      "eval_mse_loss": 0.8559827820895469,
+      "flow/cos_sim": 0.7525193725274578,
+      "flow/improvement_ratio": 0.48529497612284744,
+      "flow/mag_ratio_mean": 0.742133051429165,
+      "flow/mag_ratio_std": 0.15954837645297726,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.24748063815510982,
+      "eval_loss": 1.3509440585358503,
+      "eval_mse_loss": 0.8559827820895469,
+      "eval_runtime": 38.3549,
+      "eval_samples_per_second": 729.842,
+      "eval_steps_per_second": 11.42,
+      "flow/cos_sim": 0.7525193725274578,
+      "flow/improvement_ratio": 0.48529497612284744,
+      "flow/mag_ratio_mean": 0.742133051429165,
+      "flow/mag_ratio_std": 0.15954837645297726,
+      "step": 3072
+    },
+    {
+      "epoch": 0.15371114498175603,
+      "grad_norm": 0.23250754177570343,
+      "learning_rate": 0.0009570001282918202,
+      "loss": 1.4150209426879883,
+      "step": 3328
+    },
+    {
+      "epoch": 0.1655350792111219,
+      "grad_norm": 1.1195614337921143,
+      "learning_rate": 0.0009489534561257458,
+      "loss": 1.4101005792617798,
+      "step": 3584
+    },
+    {
+      "epoch": 0.17735901344048774,
+      "grad_norm": 0.6475523710250854,
+      "learning_rate": 0.0009402570138471477,
+      "loss": 1.3949507474899292,
+      "step": 3840
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "grad_norm": 0.3041413426399231,
+      "learning_rate": 0.0009309233878125867,
+      "loss": 1.398905634880066,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.2384823898202208,
+      "eval_loss": 1.3082205555210376,
+      "eval_mse_loss": 0.8312557756084286,
+      "flow/cos_sim": 0.7615176290954084,
+      "flow/improvement_ratio": 0.4767781115694133,
+      "flow/mag_ratio_mean": 0.7431108893052628,
+      "flow/mag_ratio_std": 0.16565074574321373,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.2384823898202208,
+      "eval_loss": 1.3082205555210376,
+      "eval_mse_loss": 0.8312557756084286,
+      "eval_runtime": 38.1625,
+      "eval_samples_per_second": 733.521,
+      "eval_steps_per_second": 11.477,
+      "flow/cos_sim": 0.7615176290954084,
+      "flow/improvement_ratio": 0.4767781115694133,
+      "flow/mag_ratio_mean": 0.7431108893052628,
+      "flow/mag_ratio_std": 0.16565074574321373,
+      "step": 4096
+    },
+    {
+      "epoch": 0.20100688189921945,
+      "grad_norm": 0.37201106548309326,
+      "learning_rate": 0.0009209660865743546,
+      "loss": 1.3921161890029907,
+      "step": 4352
+    },
+    {
+      "epoch": 0.2128308161285853,
+      "grad_norm": 0.47654396295547485,
+      "learning_rate": 0.0009103995213295538,
+      "loss": 1.3823015689849854,
+      "step": 4608
+    },
+    {
+      "epoch": 0.22465475035795113,
+      "grad_norm": 0.24332450330257416,
+      "learning_rate": 0.0008992389850627786,
+      "loss": 1.3821202516555786,
+      "step": 4864
+    },
+    {
+      "epoch": 0.236478684587317,
+      "grad_norm": 0.6045255661010742,
+      "learning_rate": 0.0008875006304125866,
+      "loss": 1.368703842163086,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.2360525783066336,
+      "eval_loss": 1.2967310523333615,
+      "eval_mse_loss": 0.8246258939510067,
+      "flow/cos_sim": 0.7639474261841274,
+      "flow/improvement_ratio": 0.4758605305870918,
+      "flow/mag_ratio_mean": 0.751331170672151,
+      "flow/mag_ratio_std": 0.1651398052363635,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.2360525783066336,
+      "eval_loss": 1.2967310523333615,
+      "eval_mse_loss": 0.8246258939510067,
+      "eval_runtime": 37.8667,
+      "eval_samples_per_second": 739.25,
+      "eval_steps_per_second": 11.567,
+      "flow/cos_sim": 0.7639474261841274,
+      "flow/improvement_ratio": 0.4758605305870918,
+      "flow/mag_ratio_mean": 0.751331170672151,
+      "flow/mag_ratio_std": 0.1651398052363635,
+      "step": 5120
+    },
+    {
+      "epoch": 0.24830261881668284,
+      "grad_norm": 1.2842298746109009,
+      "learning_rate": 0.0008752014462937921,
+      "loss": 1.3652393817901611,
+      "step": 5376
+    },
+    {
+      "epoch": 0.2601265530460487,
+      "grad_norm": 1.3890047073364258,
+      "learning_rate": 0.0008623592333094195,
+      "loss": 1.3665603399276733,
+      "step": 5632
+    },
+    {
+      "epoch": 0.27195048727541454,
+      "grad_norm": 1.1705548763275146,
+      "learning_rate": 0.0008489925779878984,
+      "loss": 1.3597829341888428,
+      "step": 5888
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "grad_norm": 0.5006002187728882,
+      "learning_rate": 0.0008351208258827912,
+      "loss": 1.3598123788833618,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.237595906710788,
+      "eval_loss": 1.302836928465595,
+      "eval_mse_loss": 0.8276451136151405,
+      "flow/cos_sim": 0.7624041227173043,
+      "flow/improvement_ratio": 0.48030529528448024,
+      "flow/mag_ratio_mean": 0.7537709809329411,
+      "flow/mag_ratio_std": 0.1697745155798246,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.237595906710788,
+      "eval_loss": 1.302836928465595,
+      "eval_mse_loss": 0.8276451136151405,
+      "eval_runtime": 37.8433,
+      "eval_samples_per_second": 739.708,
+      "eval_steps_per_second": 11.574,
+      "flow/cos_sim": 0.7624041227173043,
+      "flow/improvement_ratio": 0.48030529528448024,
+      "flow/mag_ratio_mean": 0.7537709809329411,
+      "flow/mag_ratio_std": 0.1697745155798246,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2955983557341462,
+      "grad_norm": 1.9024178981781006,
+      "learning_rate": 0.0008207640535739817,
+      "loss": 1.3518272638320923,
+      "step": 6400
+    },
+    {
+      "epoch": 0.30742228996351206,
+      "grad_norm": 1.5868515968322754,
+      "learning_rate": 0.0008059430396108527,
+      "loss": 1.3528562784194946,
+      "step": 6656
+    },
+    {
+      "epoch": 0.3192462241928779,
+      "grad_norm": 2.2589821815490723,
+      "learning_rate": 0.0007906792344395009,
+      "loss": 1.3518447875976562,
+      "step": 6912
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "grad_norm": 0.36628156900405884,
+      "learning_rate": 0.000774994729357517,
+      "loss": 1.3518491983413696,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.23038810593624637,
+      "eval_loss": 1.2705201430407833,
+      "eval_mse_loss": 0.8097439307600396,
+      "flow/cos_sim": 0.769611899166891,
+      "flow/improvement_ratio": 0.48191102304959405,
+      "flow/mag_ratio_mean": 0.7535693184153675,
+      "flow/mag_ratio_std": 0.17145597665957665,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.23038810593624637,
+      "eval_loss": 1.2705201430407833,
+      "eval_mse_loss": 0.8097439307600396,
+      "eval_runtime": 38.3324,
+      "eval_samples_per_second": 730.27,
+      "eval_steps_per_second": 11.426,
+      "flow/cos_sim": 0.769611899166891,
+      "flow/improvement_ratio": 0.48191102304959405,
+      "flow/mag_ratio_mean": 0.7535693184153675,
+      "flow/mag_ratio_std": 0.17145597665957665,
+      "step": 7168
+    },
+    {
+      "epoch": 0.34289409265160964,
+      "grad_norm": 0.30675724148750305,
+      "learning_rate": 0.000758912224541262,
+      "loss": 1.3507543802261353,
+      "step": 7424
+    },
+    {
+      "epoch": 0.3547180268809755,
+      "grad_norm": 0.6440773606300354,
+      "learning_rate": 0.000742454996191914,
+      "loss": 1.3481366634368896,
+      "step": 7680
+    },
+    {
+      "epoch": 0.3665419611103413,
+      "grad_norm": 0.9887242317199707,
+      "learning_rate": 0.0007256468628478321,
+      "loss": 1.346606969833374,
+      "step": 7936
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "grad_norm": 0.4718647003173828,
+      "learning_rate": 0.0007085121509119993,
+      "loss": 1.3463300466537476,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.2299874077240626,
+      "eval_loss": 1.2689139097248583,
+      "eval_mse_loss": 0.8089390935963148,
+      "flow/cos_sim": 0.7700126173833733,
+      "flow/improvement_ratio": 0.4802750931482881,
+      "flow/mag_ratio_mean": 0.7505737072256602,
+      "flow/mag_ratio_std": 0.17273653373462425,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.2299874077240626,
+      "eval_loss": 1.2689139097248583,
+      "eval_mse_loss": 0.8089390935963148,
+      "eval_runtime": 38.2412,
+      "eval_samples_per_second": 732.012,
+      "eval_steps_per_second": 11.454,
+      "flow/cos_sim": 0.7700126173833733,
+      "flow/improvement_ratio": 0.4802750931482881,
+      "flow/mag_ratio_mean": 0.7505737072256602,
+      "flow/mag_ratio_std": 0.17273653373462425,
+      "step": 8192
+    },
+    {
+      "epoch": 0.390189829569073,
+      "grad_norm": 0.5701487064361572,
+      "learning_rate": 0.000691075659444431,
+      "loss": 1.3397765159606934,
+      "step": 8448
+    },
+    {
+      "epoch": 0.4020137637984389,
+      "grad_norm": 0.2903459966182709,
+      "learning_rate": 0.0006733626242705082,
+      "loss": 1.3429921865463257,
+      "step": 8704
+    },
+    {
+      "epoch": 0.41383769802780473,
+      "grad_norm": 1.0731102228164673,
+      "learning_rate": 0.0006553986814571795,
+      "loss": 1.3373149633407593,
+      "step": 8960
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "grad_norm": 2.3944308757781982,
+      "learning_rate": 0.0006372098302098944,
+      "loss": 1.3349826335906982,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.22907086808795799,
+      "eval_loss": 1.263627827984013,
+      "eval_mse_loss": 0.8054860928287245,
+      "flow/cos_sim": 0.7709291401791246,
+      "flow/improvement_ratio": 0.4783504515478056,
+      "flow/mag_ratio_mean": 0.7555886954749556,
+      "flow/mag_ratio_std": 0.17359172498390554,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.22907086808795799,
+      "eval_loss": 1.263627827984013,
+      "eval_mse_loss": 0.8054860928287245,
+      "eval_runtime": 38.1725,
+      "eval_samples_per_second": 733.329,
+      "eval_steps_per_second": 11.474,
+      "flow/cos_sim": 0.7709291401791246,
+      "flow/improvement_ratio": 0.4783504515478056,
+      "flow/mag_ratio_mean": 0.7555886954749556,
+      "flow/mag_ratio_std": 0.17359172498390554,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4374855664865364,
+      "grad_norm": 0.8406338691711426,
+      "learning_rate": 0.0006188223952439671,
+      "loss": 1.3365044593811035,
+      "step": 9472
+    },
+    {
+      "epoch": 0.44930950071590225,
+      "grad_norm": 0.4198502004146576,
+      "learning_rate": 0.0006002629886848276,
+      "loss": 1.3363875150680542,
+      "step": 9728
+    },
+    {
+      "epoch": 0.4611334349452681,
+      "grad_norm": 0.25390586256980896,
+      "learning_rate": 0.0005815584715523073,
+      "loss": 1.3315783739089966,
+      "step": 9984
+    },
+    {
+      "epoch": 0.472957369174634,
+      "grad_norm": 1.6368358135223389,
+      "learning_rate": 0.0005627359148846979,
+      "loss": 1.3290125131607056,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.22714132124974848,
+      "eval_loss": 1.2561225123601416,
+      "eval_mse_loss": 0.8018398724462343,
+      "flow/cos_sim": 0.7728586847379327,
+      "flow/improvement_ratio": 0.4823647101311923,
+      "flow/mag_ratio_mean": 0.7559084860973706,
+      "flow/mag_ratio_std": 0.17520164426195023,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.22714132124974848,
+      "eval_loss": 1.2561225123601416,
+      "eval_mse_loss": 0.8018398724462343,
+      "eval_runtime": 38.2497,
+      "eval_samples_per_second": 731.848,
+      "eval_steps_per_second": 11.451,
+      "flow/cos_sim": 0.7728586847379327,
+      "flow/improvement_ratio": 0.4823647101311923,
+      "flow/mag_ratio_mean": 0.7559084860973706,
+      "flow/mag_ratio_std": 0.17520164426195023,
+      "step": 10240
+    },
+    {
+      "epoch": 0.48478130340399983,
+      "grad_norm": 0.28762465715408325,
+      "learning_rate": 0.0005438225605588509,
+      "loss": 1.3272242546081543,
+      "step": 10496
+    },
+    {
+      "epoch": 0.49660523763336567,
+      "grad_norm": 1.8320599794387817,
+      "learning_rate": 0.0005248457818630231,
+      "loss": 1.3262661695480347,
+      "step": 10752
+    },
+    {
+      "epoch": 0.5084291718627315,
+      "grad_norm": 1.9320905208587646,
+      "learning_rate": 0.0005058330438795307,
+      "loss": 1.3232632875442505,
+      "step": 11008
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "grad_norm": 0.5674813985824585,
+      "learning_rate": 0.0004868118637345485,
+      "loss": 1.3243262767791748,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.2250166033228783,
+      "eval_loss": 1.2463049975704386,
+      "eval_mse_loss": 0.7962717901081799,
+      "flow/cos_sim": 0.7749834096050698,
+      "flow/improvement_ratio": 0.4846222329901778,
+      "flow/mag_ratio_mean": 0.7608566733255778,
+      "flow/mag_ratio_std": 0.1756929681725698,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.2250166033228783,
+      "eval_loss": 1.2463049975704386,
+      "eval_mse_loss": 0.7962717901081799,
+      "eval_runtime": 38.6094,
+      "eval_samples_per_second": 725.031,
+      "eval_steps_per_second": 11.344,
+      "flow/cos_sim": 0.7749834096050698,
+      "flow/improvement_ratio": 0.4846222329901778,
+      "flow/mag_ratio_mean": 0.7608566733255778,
+      "flow/mag_ratio_std": 0.1756929681725698,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5320770403214632,
+      "grad_norm": 0.5362160205841064,
+      "learning_rate": 0.0004678097707725879,
+      "loss": 1.3213114738464355,
+      "step": 11520
+    },
+    {
+      "epoch": 0.5439009745508291,
+      "grad_norm": 0.891897439956665,
+      "learning_rate": 0.00044885426671328947,
+      "loss": 1.3259453773498535,
+      "step": 11776
+    },
+    {
+      "epoch": 0.5557249087801949,
+      "grad_norm": 0.7019096612930298,
+      "learning_rate": 0.00043004636220449254,
+      "loss": 1.3259971141815186,
+      "step": 12032
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "grad_norm": 0.5158335566520691,
+      "learning_rate": 0.0004112657828038095,
+      "loss": 1.3186417818069458,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.22481494250635034,
+      "eval_loss": 1.2442510468230399,
+      "eval_mse_loss": 0.794621159905168,
+      "flow/cos_sim": 0.7751850770216554,
+      "flow/improvement_ratio": 0.4843696723926013,
+      "flow/mag_ratio_mean": 0.7540967676737537,
+      "flow/mag_ratio_std": 0.17127465946625356,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.22481494250635034,
+      "eval_loss": 1.2442510468230399,
+      "eval_mse_loss": 0.794621159905168,
+      "eval_runtime": 38.4289,
+      "eval_samples_per_second": 728.436,
+      "eval_steps_per_second": 11.398,
+      "flow/cos_sim": 0.7751850770216554,
+      "flow/improvement_ratio": 0.4843696723926013,
+      "flow/mag_ratio_mean": 0.7540967676737537,
+      "flow/mag_ratio_std": 0.17127465946625356,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5793727772389267,
+      "grad_norm": 1.6348507404327393,
+      "learning_rate": 0.0003926136283912977,
+      "loss": 1.3202893733978271,
+      "step": 12544
+    },
+    {
+      "epoch": 0.5911967114682924,
+      "grad_norm": 0.9154382348060608,
+      "learning_rate": 0.0003741168942207097,
+      "loss": 1.3224493265151978,
+      "step": 12800
+    },
+    {
+      "epoch": 0.6030206456976583,
+      "grad_norm": 0.36584168672561646,
+      "learning_rate": 0.00035580235060616054,
+      "loss": 1.3221790790557861,
+      "step": 13056
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "grad_norm": 0.7461158633232117,
+      "learning_rate": 0.0003376965041774639,
+      "loss": 1.3157620429992676,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.22370701786726033,
+      "eval_loss": 1.2403812901070128,
+      "eval_mse_loss": 0.7929672547127014,
+      "flow/cos_sim": 0.77629301074433,
+      "flow/improvement_ratio": 0.47866371961216947,
+      "flow/mag_ratio_mean": 0.7604604626082938,
+      "flow/mag_ratio_std": 0.176010451462443,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.22370701786726033,
+      "eval_loss": 1.2403812901070128,
+      "eval_mse_loss": 0.7929672547127014,
+      "eval_runtime": 38.1923,
+      "eval_samples_per_second": 732.949,
+      "eval_steps_per_second": 11.468,
+      "flow/cos_sim": 0.77629301074433,
+      "flow/improvement_ratio": 0.47866371961216947,
+      "flow/mag_ratio_mean": 0.7604604626082938,
+      "flow/mag_ratio_std": 0.176010451462443,
+      "step": 13312
+    },
+    {
+      "epoch": 0.62666851415639,
+      "grad_norm": 0.5198074579238892,
+      "learning_rate": 0.0003198255595171013,
+      "loss": 1.311034083366394,
+      "step": 13568
+    },
+    {
+      "epoch": 0.6384924483857558,
+      "grad_norm": 0.20684662461280823,
+      "learning_rate": 0.000302215381234342,
+      "loss": 1.3143961429595947,
+      "step": 13824
+    },
+    {
+      "epoch": 0.6503163826151217,
+      "grad_norm": 0.2593955099582672,
+      "learning_rate": 0.0002849585386095228,
+      "loss": 1.3148876428604126,
+      "step": 14080
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "grad_norm": 0.7760673761367798,
+      "learning_rate": 0.0002679446760672468,
+      "loss": 1.3120242357254028,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.22288279759285112,
+      "eval_loss": 1.23468789390233,
+      "eval_mse_loss": 0.7889222980362095,
+      "flow/cos_sim": 0.7771172157433479,
+      "flow/improvement_ratio": 0.4807521503537757,
+      "flow/mag_ratio_mean": 0.7600993149356755,
+      "flow/mag_ratio_std": 0.17531098554667818,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.22288279759285112,
+      "eval_loss": 1.23468789390233,
+      "eval_mse_loss": 0.7889222980362095,
+      "eval_runtime": 38.2466,
+      "eval_samples_per_second": 731.908,
+      "eval_steps_per_second": 11.452,
+      "flow/cos_sim": 0.7771172157433479,
+      "flow/improvement_ratio": 0.4807521503537757,
+      "flow/mag_ratio_mean": 0.7600993149356755,
+      "flow/mag_ratio_std": 0.17531098554667818,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6739642510738534,
+      "grad_norm": 0.7773881554603577,
+      "learning_rate": 0.0002512666670792449,
+      "loss": 1.3133234977722168,
+      "step": 14592
+    },
+    {
+      "epoch": 0.6857881853032193,
+      "grad_norm": 0.33675631880760193,
+      "learning_rate": 0.00023494864971958463,
+      "loss": 1.3156976699829102,
+      "step": 14848
+    },
+    {
+      "epoch": 0.6976121195325851,
+      "grad_norm": 0.39987826347351074,
+      "learning_rate": 0.0002190142410466297,
+      "loss": 1.312076210975647,
+      "step": 15104
+    },
+    {
+      "epoch": 0.709436053761951,
+      "grad_norm": 1.2741974592208862,
+      "learning_rate": 0.00020348650292208355,
+      "loss": 1.3096755743026733,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.22364824656482157,
+      "eval_loss": 1.2394148476047604,
+      "eval_mse_loss": 0.7921183559720375,
+      "flow/cos_sim": 0.7763517757528993,
+      "flow/improvement_ratio": 0.48859692844626024,
+      "flow/mag_ratio_mean": 0.7602596438094361,
+      "flow/mag_ratio_std": 0.1753684315643354,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.22364824656482157,
+      "eval_loss": 1.2394148476047604,
+      "eval_mse_loss": 0.7921183559720375,
+      "eval_runtime": 38.2191,
+      "eval_samples_per_second": 732.436,
+      "eval_steps_per_second": 11.46,
+      "flow/cos_sim": 0.7763517757528993,
+      "flow/improvement_ratio": 0.48859692844626024,
+      "flow/mag_ratio_mean": 0.7602596438094361,
+      "flow/mag_ratio_std": 0.1753684315643354,
+      "step": 15360
+    },
+    {
+      "epoch": 0.7212599879913169,
+      "grad_norm": 0.91872239112854,
+      "learning_rate": 0.0001883879086335682,
+      "loss": 1.3155561685562134,
+      "step": 15616
+    },
+    {
+      "epoch": 0.7330839222206826,
+      "grad_norm": 0.7235752940177917,
+      "learning_rate": 0.00017374031036904646,
+      "loss": 1.3148996829986572,
+      "step": 15872
+    },
+    {
+      "epoch": 0.7449078564500485,
+      "grad_norm": 1.5837082862854004,
+      "learning_rate": 0.00015956490759016107,
+      "loss": 1.307360291481018,
+      "step": 16128
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "grad_norm": 0.2564609944820404,
+      "learning_rate": 0.00014588221635026462,
+      "loss": 1.307948112487793,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.22264472640132252,
+      "eval_loss": 1.234629833262805,
+      "eval_mse_loss": 0.7893403812086202,
+      "flow/cos_sim": 0.7773553015978913,
+      "flow/improvement_ratio": 0.48276225923131044,
+      "flow/mag_ratio_mean": 0.7610696509276351,
+      "flow/mag_ratio_std": 0.17544000585601754,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.22264472640132252,
+      "eval_loss": 1.234629833262805,
+      "eval_mse_loss": 0.7893403812086202,
+      "eval_runtime": 38.0825,
+      "eval_samples_per_second": 735.063,
+      "eval_steps_per_second": 11.501,
+      "flow/cos_sim": 0.7773553015978913,
+      "flow/improvement_ratio": 0.48276225923131044,
+      "flow/mag_ratio_mean": 0.7610696509276351,
+      "flow/mag_ratio_std": 0.17544000585601754,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7685557249087802,
+      "grad_norm": 0.2357015311717987,
+      "learning_rate": 0.00013271203960154576,
+      "loss": 1.3056586980819702,
+      "step": 16640
+    },
+    {
+      "epoch": 0.780379659138146,
+      "grad_norm": 0.6545789837837219,
+      "learning_rate": 0.0001200734385342262,
+      "loss": 1.3069326877593994,
+      "step": 16896
+    },
+    {
+      "epoch": 0.7922035933675119,
+      "grad_norm": 0.5553286075592041,
+      "learning_rate": 0.00010798470498931034,
+      "loss": 1.3104249238967896,
+      "step": 17152
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "grad_norm": 0.9544392824172974,
+      "learning_rate": 9.646333498481152e-05,
+      "loss": 1.3092049360275269,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.2226330109927208,
+      "eval_loss": 1.2352391797113635,
+      "eval_mse_loss": 0.7899731571815874,
+      "flow/cos_sim": 0.7773670049290679,
+      "flow/improvement_ratio": 0.48120235573483383,
+      "flow/mag_ratio_mean": 0.7611706157525381,
+      "flow/mag_ratio_std": 0.17672617512342592,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.2226330109927208,
+      "eval_loss": 1.2352391797113635,
+      "eval_mse_loss": 0.7899731571815874,
+      "eval_runtime": 38.1071,
+      "eval_samples_per_second": 734.588,
+      "eval_steps_per_second": 11.494,
+      "flow/cos_sim": 0.7773670049290679,
+      "flow/improvement_ratio": 0.48120235573483383,
+      "flow/mag_ratio_mean": 0.7611706157525381,
+      "flow/mag_ratio_std": 0.17672617512342592,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8158514618262436,
+      "grad_norm": 0.365252286195755,
+      "learning_rate": 8.552600339377569e-05,
+      "loss": 1.3102151155471802,
+      "step": 17664
+    },
+    {
+      "epoch": 0.8276753960556095,
+      "grad_norm": 0.32710692286491394,
+      "learning_rate": 7.518853981074431e-05,
+      "loss": 1.3044898509979248,
+      "step": 17920
+    },
+    {
+      "epoch": 0.8394993302849753,
+      "grad_norm": 0.3619934022426605,
+      "learning_rate": 6.550267002511972e-05,
+      "loss": 1.305891513824463,
+      "step": 18176
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "grad_norm": 0.40305039286613464,
+      "learning_rate": 5.6406453984677306e-05,
+      "loss": 1.305964469909668,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.2226418528246553,
+      "eval_loss": 1.2338021887491828,
+      "eval_mse_loss": 0.7885184851411271,
+      "flow/cos_sim": 0.7773581763652906,
+      "flow/improvement_ratio": 0.4792883807461556,
+      "flow/mag_ratio_mean": 0.7609404158102323,
+      "flow/mag_ratio_std": 0.17583323059152794,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.2226418528246553,
+      "eval_loss": 1.2338021887491828,
+      "eval_mse_loss": 0.7885184851411271,
+      "eval_runtime": 38.3022,
+      "eval_samples_per_second": 730.846,
+      "eval_steps_per_second": 11.435,
+      "flow/cos_sim": 0.7773581763652906,
+      "flow/improvement_ratio": 0.4792883807461556,
+      "flow/mag_ratio_mean": 0.7609404158102323,
+      "flow/mag_ratio_std": 0.17583323059152794,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8631471987437069,
+      "grad_norm": 0.27111852169036865,
+      "learning_rate": 4.7952250661536243e-05,
+      "loss": 1.3054128885269165,
+      "step": 18688
+    },
+    {
+      "epoch": 0.8749711329730728,
+      "grad_norm": 0.2560623586177826,
+      "learning_rate": 4.0152295819938015e-05,
+      "loss": 1.2992324829101562,
+      "step": 18944
+    },
+    {
+      "epoch": 0.8867950672024387,
+      "grad_norm": 0.3480774462223053,
+      "learning_rate": 3.3017878330624194e-05,
+      "loss": 1.3068798780441284,
+      "step": 19200
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "grad_norm": 1.4495835304260254,
+      "learning_rate": 2.655932383245879e-05,
+      "loss": 1.309512972831726,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.22318284805506877,
+      "eval_loss": 1.2365219271890648,
+      "eval_mse_loss": 0.7901562346171026,
+      "flow/cos_sim": 0.7768171618790387,
+      "flow/improvement_ratio": 0.48550828644946287,
+      "flow/mag_ratio_mean": 0.759889675874144,
+      "flow/mag_ratio_std": 0.1753429954522821,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.22318284805506877,
+      "eval_loss": 1.2365219271890648,
+      "eval_mse_loss": 0.7901562346171026,
+      "eval_runtime": 37.9487,
+      "eval_samples_per_second": 737.654,
+      "eval_steps_per_second": 11.542,
+      "flow/cos_sim": 0.7768171618790387,
+      "flow/improvement_ratio": 0.48550828644946287,
+      "flow/mag_ratio_mean": 0.759889675874144,
+      "flow/mag_ratio_std": 0.1753429954522821,
+      "step": 19456
+    },
+    {
+      "epoch": 0.9104429356611704,
+      "grad_norm": 0.2634163200855255,
+      "learning_rate": 2.078597978813729e-05,
+      "loss": 1.3040359020233154,
+      "step": 19712
+    },
+    {
+      "epoch": 0.9222668698905362,
+      "grad_norm": 0.3606112003326416,
+      "learning_rate": 1.57062019556074e-05,
+      "loss": 1.303109049797058,
+      "step": 19968
+    },
+    {
+      "epoch": 0.9340908041199021,
+      "grad_norm": 0.28589293360710144,
+      "learning_rate": 1.1343075046968187e-05,
+      "loss": 1.3101311922073364,
+      "step": 20224
+    },
+    {
+      "epoch": 0.945914738349268,
+      "grad_norm": 0.3070381283760071,
+      "learning_rate": 7.668697354415943e-06,
+      "loss": 1.31185781955719,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.22114521217400626,
+      "eval_loss": 1.227875959927633,
+      "eval_mse_loss": 0.7855855340827002,
+      "flow/cos_sim": 0.7788548091230871,
+      "flow/improvement_ratio": 0.47847176986197903,
+      "flow/mag_ratio_mean": 0.7624764865664042,
+      "flow/mag_ratio_std": 0.17646009566849225,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.22114521217400626,
+      "eval_loss": 1.227875959927633,
+      "eval_mse_loss": 0.7855855340827002,
+      "eval_runtime": 38.0239,
+      "eval_samples_per_second": 736.196,
+      "eval_steps_per_second": 11.519,
+      "flow/cos_sim": 0.7788548091230871,
+      "flow/improvement_ratio": 0.47847176986197903,
+      "flow/mag_ratio_mean": 0.7624764865664042,
+      "flow/mag_ratio_std": 0.17646009566849225,
+      "step": 20480
+    },
+    {
+      "epoch": 0.9577386725786338,
+      "grad_norm": 0.30065974593162537,
+      "learning_rate": 4.706870509961658e-06,
+      "loss": 1.3032283782958984,
+      "step": 20736
+    },
+    {
+      "epoch": 0.9695626068079997,
+      "grad_norm": 0.5164745450019836,
+      "learning_rate": 2.461881164116053e-06,
+      "loss": 1.3059771060943604,
+      "step": 20992
+    },
+    {
+      "epoch": 0.9813865410373654,
+      "grad_norm": 0.1629684418439865,
+      "learning_rate": 9.369784888367261e-07,
+      "loss": 1.3061639070510864,
+      "step": 21248
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "grad_norm": 0.3277168869972229,
+      "learning_rate": 1.3436947500289342e-07,
+      "loss": 1.3064048290252686,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.22108487941358732,
+      "eval_loss": 1.22712274991214,
+      "eval_mse_loss": 0.7849529917653837,
+      "flow/cos_sim": 0.7789151420876316,
+      "flow/improvement_ratio": 0.4868433005325326,
+      "flow/mag_ratio_mean": 0.7618113677251285,
+      "flow/mag_ratio_std": 0.17511140633391464,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.22108487941358732,
+      "eval_loss": 1.22712274991214,
+      "eval_mse_loss": 0.7849529917653837,
+      "eval_runtime": 38.1855,
+      "eval_samples_per_second": 733.079,
+      "eval_steps_per_second": 11.47,
+      "flow/cos_sim": 0.7789151420876316,
+      "flow/improvement_ratio": 0.4868433005325326,
+      "flow/mag_ratio_mean": 0.7618113677251285,
+      "flow/mag_ratio_std": 0.17511140633391464,
+      "step": 21504
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 21651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-a/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03a8c5803c6e5663005c9dc7a4c98c213c8267649ccec42581475db390cc8017
+size 5137