Upload folder using huggingface_hub

3cb4965 verified 5 months ago

12.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 689,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01451378809869376,
	"grad_norm": 2.8285412788391113,
	"learning_rate": 1.8e-05,
	"loss": 1.1057,
	"step": 10
	},
	{
	"epoch": 0.02902757619738752,
	"grad_norm": 1.1285754442214966,
	"learning_rate": 3.8e-05,
	"loss": 0.9694,
	"step": 20
	},
	{
	"epoch": 0.04354136429608128,
	"grad_norm": 0.8574178218841553,
	"learning_rate": 5.8e-05,
	"loss": 0.7341,
	"step": 30
	},
	{
	"epoch": 0.05805515239477504,
	"grad_norm": 0.53108811378479,
	"learning_rate": 7.800000000000001e-05,
	"loss": 0.6017,
	"step": 40
	},
	{
	"epoch": 0.07256894049346879,
	"grad_norm": 0.40395280718803406,
	"learning_rate": 9.8e-05,
	"loss": 0.534,
	"step": 50
	},
	{
	"epoch": 0.08708272859216255,
	"grad_norm": 0.4184938073158264,
	"learning_rate": 0.000118,
	"loss": 0.5018,
	"step": 60
	},
	{
	"epoch": 0.10159651669085631,
	"grad_norm": 0.3326551616191864,
	"learning_rate": 0.000138,
	"loss": 0.4807,
	"step": 70
	},
	{
	"epoch": 0.11611030478955008,
	"grad_norm": 0.3530741333961487,
	"learning_rate": 0.00015800000000000002,
	"loss": 0.462,
	"step": 80
	},
	{
	"epoch": 0.13062409288824384,
	"grad_norm": 0.3607262670993805,
	"learning_rate": 0.00017800000000000002,
	"loss": 0.4492,
	"step": 90
	},
	{
	"epoch": 0.14513788098693758,
	"grad_norm": 0.37283945083618164,
	"learning_rate": 0.00019800000000000002,
	"loss": 0.4436,
	"step": 100
	},
	{
	"epoch": 0.15965166908563136,
	"grad_norm": 0.3210872709751129,
	"learning_rate": 0.00019694397283531408,
	"loss": 0.4338,
	"step": 110
	},
	{
	"epoch": 0.1741654571843251,
	"grad_norm": 0.2939835488796234,
	"learning_rate": 0.00019354838709677422,
	"loss": 0.4279,
	"step": 120
	},
	{
	"epoch": 0.18867924528301888,
	"grad_norm": 0.3203432857990265,
	"learning_rate": 0.0001901528013582343,
	"loss": 0.4177,
	"step": 130
	},
	{
	"epoch": 0.20319303338171263,
	"grad_norm": 0.2840735614299774,
	"learning_rate": 0.00018675721561969442,
	"loss": 0.4157,
	"step": 140
	},
	{
	"epoch": 0.21770682148040638,
	"grad_norm": 0.29428958892822266,
	"learning_rate": 0.0001833616298811545,
	"loss": 0.4133,
	"step": 150
	},
	{
	"epoch": 0.23222060957910015,
	"grad_norm": 0.2704876661300659,
	"learning_rate": 0.00017996604414261463,
	"loss": 0.4095,
	"step": 160
	},
	{
	"epoch": 0.2467343976777939,
	"grad_norm": 0.29016420245170593,
	"learning_rate": 0.0001765704584040747,
	"loss": 0.4036,
	"step": 170
	},
	{
	"epoch": 0.2612481857764877,
	"grad_norm": 0.26832008361816406,
	"learning_rate": 0.0001731748726655348,
	"loss": 0.4057,
	"step": 180
	},
	{
	"epoch": 0.2757619738751814,
	"grad_norm": 0.280130535364151,
	"learning_rate": 0.00016977928692699492,
	"loss": 0.3996,
	"step": 190
	},
	{
	"epoch": 0.29027576197387517,
	"grad_norm": 0.2216828167438507,
	"learning_rate": 0.00016638370118845502,
	"loss": 0.3999,
	"step": 200
	},
	{
	"epoch": 0.3047895500725689,
	"grad_norm": 0.2544555962085724,
	"learning_rate": 0.00016298811544991512,
	"loss": 0.394,
	"step": 210
	},
	{
	"epoch": 0.3193033381712627,
	"grad_norm": 0.26161113381385803,
	"learning_rate": 0.00015959252971137523,
	"loss": 0.3918,
	"step": 220
	},
	{
	"epoch": 0.33381712626995647,
	"grad_norm": 0.22447264194488525,
	"learning_rate": 0.00015619694397283533,
	"loss": 0.395,
	"step": 230
	},
	{
	"epoch": 0.3483309143686502,
	"grad_norm": 0.24482668936252594,
	"learning_rate": 0.00015280135823429543,
	"loss": 0.3842,
	"step": 240
	},
	{
	"epoch": 0.36284470246734396,
	"grad_norm": 0.2375396192073822,
	"learning_rate": 0.00014940577249575554,
	"loss": 0.3906,
	"step": 250
	},
	{
	"epoch": 0.37735849056603776,
	"grad_norm": 0.24287049472332,
	"learning_rate": 0.00014601018675721562,
	"loss": 0.3838,
	"step": 260
	},
	{
	"epoch": 0.3918722786647315,
	"grad_norm": 0.24098220467567444,
	"learning_rate": 0.00014261460101867572,
	"loss": 0.3816,
	"step": 270
	},
	{
	"epoch": 0.40638606676342526,
	"grad_norm": 0.23136872053146362,
	"learning_rate": 0.00013921901528013582,
	"loss": 0.3846,
	"step": 280
	},
	{
	"epoch": 0.420899854862119,
	"grad_norm": 0.23768611252307892,
	"learning_rate": 0.00013582342954159593,
	"loss": 0.3788,
	"step": 290
	},
	{
	"epoch": 0.43541364296081275,
	"grad_norm": 0.2431989163160324,
	"learning_rate": 0.00013242784380305603,
	"loss": 0.3762,
	"step": 300
	},
	{
	"epoch": 0.44992743105950656,
	"grad_norm": 0.22804555296897888,
	"learning_rate": 0.00012903225806451613,
	"loss": 0.3745,
	"step": 310
	},
	{
	"epoch": 0.4644412191582003,
	"grad_norm": 0.22682340443134308,
	"learning_rate": 0.00012563667232597624,
	"loss": 0.3774,
	"step": 320
	},
	{
	"epoch": 0.47895500725689405,
	"grad_norm": 0.2583816647529602,
	"learning_rate": 0.00012224108658743634,
	"loss": 0.3762,
	"step": 330
	},
	{
	"epoch": 0.4934687953555878,
	"grad_norm": 0.23387964069843292,
	"learning_rate": 0.00011884550084889643,
	"loss": 0.3753,
	"step": 340
	},
	{
	"epoch": 0.5079825834542816,
	"grad_norm": 0.21552371978759766,
	"learning_rate": 0.00011544991511035655,
	"loss": 0.3761,
	"step": 350
	},
	{
	"epoch": 0.5224963715529753,
	"grad_norm": 0.2177582085132599,
	"learning_rate": 0.00011205432937181664,
	"loss": 0.3734,
	"step": 360
	},
	{
	"epoch": 0.5370101596516691,
	"grad_norm": 0.22051909565925598,
	"learning_rate": 0.00010865874363327674,
	"loss": 0.3717,
	"step": 370
	},
	{
	"epoch": 0.5515239477503628,
	"grad_norm": 0.21704523265361786,
	"learning_rate": 0.00010526315789473685,
	"loss": 0.3707,
	"step": 380
	},
	{
	"epoch": 0.5660377358490566,
	"grad_norm": 0.2447778433561325,
	"learning_rate": 0.00010186757215619695,
	"loss": 0.3669,
	"step": 390
	},
	{
	"epoch": 0.5805515239477503,
	"grad_norm": 0.2079760581254959,
	"learning_rate": 9.847198641765704e-05,
	"loss": 0.3643,
	"step": 400
	},
	{
	"epoch": 0.5950653120464441,
	"grad_norm": 0.21614719927310944,
	"learning_rate": 9.507640067911715e-05,
	"loss": 0.3655,
	"step": 410
	},
	{
	"epoch": 0.6095791001451378,
	"grad_norm": 0.2331458330154419,
	"learning_rate": 9.168081494057725e-05,
	"loss": 0.363,
	"step": 420
	},
	{
	"epoch": 0.6240928882438317,
	"grad_norm": 0.23197589814662933,
	"learning_rate": 8.828522920203735e-05,
	"loss": 0.3611,
	"step": 430
	},
	{
	"epoch": 0.6386066763425254,
	"grad_norm": 0.21380995213985443,
	"learning_rate": 8.488964346349746e-05,
	"loss": 0.3656,
	"step": 440
	},
	{
	"epoch": 0.6531204644412192,
	"grad_norm": 0.21522027254104614,
	"learning_rate": 8.149405772495756e-05,
	"loss": 0.3622,
	"step": 450
	},
	{
	"epoch": 0.6676342525399129,
	"grad_norm": 0.23200784623622894,
	"learning_rate": 7.809847198641767e-05,
	"loss": 0.3652,
	"step": 460
	},
	{
	"epoch": 0.6821480406386067,
	"grad_norm": 0.20713669061660767,
	"learning_rate": 7.470288624787777e-05,
	"loss": 0.3577,
	"step": 470
	},
	{
	"epoch": 0.6966618287373004,
	"grad_norm": 0.2413240522146225,
	"learning_rate": 7.130730050933786e-05,
	"loss": 0.3605,
	"step": 480
	},
	{
	"epoch": 0.7111756168359942,
	"grad_norm": 0.23881566524505615,
	"learning_rate": 6.791171477079796e-05,
	"loss": 0.361,
	"step": 490
	},
	{
	"epoch": 0.7256894049346879,
	"grad_norm": 0.2193984091281891,
	"learning_rate": 6.451612903225807e-05,
	"loss": 0.3556,
	"step": 500
	},
	{
	"epoch": 0.7402031930333817,
	"grad_norm": 0.2159193903207779,
	"learning_rate": 6.112054329371817e-05,
	"loss": 0.3581,
	"step": 510
	},
	{
	"epoch": 0.7547169811320755,
	"grad_norm": 0.23495930433273315,
	"learning_rate": 5.7724957555178275e-05,
	"loss": 0.3572,
	"step": 520
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 0.2095775455236435,
	"learning_rate": 5.432937181663837e-05,
	"loss": 0.3548,
	"step": 530
	},
	{
	"epoch": 0.783744557329463,
	"grad_norm": 0.2108987271785736,
	"learning_rate": 5.0933786078098476e-05,
	"loss": 0.3586,
	"step": 540
	},
	{
	"epoch": 0.7982583454281568,
	"grad_norm": 0.21367427706718445,
	"learning_rate": 4.753820033955857e-05,
	"loss": 0.354,
	"step": 550
	},
	{
	"epoch": 0.8127721335268505,
	"grad_norm": 0.21299470961093903,
	"learning_rate": 4.414261460101868e-05,
	"loss": 0.3549,
	"step": 560
	},
	{
	"epoch": 0.8272859216255443,
	"grad_norm": 0.19568979740142822,
	"learning_rate": 4.074702886247878e-05,
	"loss": 0.3527,
	"step": 570
	},
	{
	"epoch": 0.841799709724238,
	"grad_norm": 0.23140305280685425,
	"learning_rate": 3.7351443123938885e-05,
	"loss": 0.3523,
	"step": 580
	},
	{
	"epoch": 0.8563134978229318,
	"grad_norm": 0.19580787420272827,
	"learning_rate": 3.395585738539898e-05,
	"loss": 0.3541,
	"step": 590
	},
	{
	"epoch": 0.8708272859216255,
	"grad_norm": 0.2059970647096634,
	"learning_rate": 3.0560271646859086e-05,
	"loss": 0.3572,
	"step": 600
	},
	{
	"epoch": 0.8853410740203193,
	"grad_norm": 0.2206289917230606,
	"learning_rate": 2.7164685908319186e-05,
	"loss": 0.3548,
	"step": 610
	},
	{
	"epoch": 0.8998548621190131,
	"grad_norm": 0.20322079956531525,
	"learning_rate": 2.3769100169779286e-05,
	"loss": 0.3557,
	"step": 620
	},
	{
	"epoch": 0.9143686502177069,
	"grad_norm": 0.20411954820156097,
	"learning_rate": 2.037351443123939e-05,
	"loss": 0.3553,
	"step": 630
	},
	{
	"epoch": 0.9288824383164006,
	"grad_norm": 0.22070156037807465,
	"learning_rate": 1.697792869269949e-05,
	"loss": 0.3483,
	"step": 640
	},
	{
	"epoch": 0.9433962264150944,
	"grad_norm": 0.1965171992778778,
	"learning_rate": 1.3582342954159593e-05,
	"loss": 0.3555,
	"step": 650
	},
	{
	"epoch": 0.9579100145137881,
	"grad_norm": 0.19971269369125366,
	"learning_rate": 1.0186757215619695e-05,
	"loss": 0.3475,
	"step": 660
	},
	{
	"epoch": 0.9724238026124818,
	"grad_norm": 0.1889594942331314,
	"learning_rate": 6.7911714770797965e-06,
	"loss": 0.3532,
	"step": 670
	},
	{
	"epoch": 0.9869375907111756,
	"grad_norm": 0.18607065081596375,
	"learning_rate": 3.3955857385398982e-06,
	"loss": 0.3492,
	"step": 680
	}
	],
	"logging_steps": 10,
	"max_steps": 689,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.211655017901048e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}