amirali1985 commited on
Commit
e6c58bc
·
verified ·
1 Parent(s): e02ecef

Upload add_baseline_250K

Browse files
add_baseline_250K/config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "SorlModelWrapper"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": null,
10
+ "head_dim": 128,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 512,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 2048,
15
+ "layer_types": [
16
+ "full_attention",
17
+ "full_attention",
18
+ "full_attention"
19
+ ],
20
+ "max_position_embeddings": 128,
21
+ "max_window_layers": 28,
22
+ "model_type": "qwen3",
23
+ "num_attention_heads": 4,
24
+ "num_hidden_layers": 3,
25
+ "num_key_value_heads": 4,
26
+ "pad_token_id": null,
27
+ "rms_norm_eps": 1e-06,
28
+ "rope_parameters": {
29
+ "rope_theta": 10000.0,
30
+ "rope_type": "default"
31
+ },
32
+ "sliding_window": null,
33
+ "tie_word_embeddings": false,
34
+ "transformers_version": "5.5.0",
35
+ "use_cache": true,
36
+ "use_sliding_window": false,
37
+ "vocab_size": 151645
38
+ }
add_baseline_250K/generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "output_attentions": false,
4
+ "output_hidden_states": false,
5
+ "transformers_version": "5.5.0",
6
+ "use_cache": true
7
+ }
add_baseline_250K/metrics.json ADDED
@@ -0,0 +1,949 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "history": {
3
+ "step": [
4
+ 50,
5
+ 100,
6
+ 150,
7
+ 200,
8
+ 250,
9
+ 300,
10
+ 350,
11
+ 400,
12
+ 450,
13
+ 500,
14
+ 550,
15
+ 600,
16
+ 650,
17
+ 700,
18
+ 750,
19
+ 800,
20
+ 850,
21
+ 900,
22
+ 950,
23
+ 1000,
24
+ 1050,
25
+ 1100,
26
+ 1150,
27
+ 1200,
28
+ 1250,
29
+ 1300,
30
+ 1350,
31
+ 1400,
32
+ 1450,
33
+ 1500,
34
+ 1550,
35
+ 1600,
36
+ 1650,
37
+ 1700,
38
+ 1750,
39
+ 1800,
40
+ 1850,
41
+ 1900,
42
+ 1950,
43
+ 2000,
44
+ 2050,
45
+ 2100,
46
+ 2150,
47
+ 2200,
48
+ 2250,
49
+ 2300,
50
+ 2350,
51
+ 2400,
52
+ 2450,
53
+ 2500,
54
+ 2550,
55
+ 2600,
56
+ 2650,
57
+ 2700,
58
+ 2750,
59
+ 2800,
60
+ 2850,
61
+ 2900,
62
+ 2950,
63
+ 3000,
64
+ 3050,
65
+ 3100,
66
+ 3150,
67
+ 3200,
68
+ 3250,
69
+ 3300,
70
+ 3350,
71
+ 3400,
72
+ 3450,
73
+ 3500,
74
+ 3550,
75
+ 3600,
76
+ 3650,
77
+ 3700,
78
+ 3750,
79
+ 3800,
80
+ 3850,
81
+ 3900,
82
+ 3950,
83
+ 4000,
84
+ 4050,
85
+ 4100,
86
+ 4150,
87
+ 4200,
88
+ 4250,
89
+ 4300,
90
+ 4350,
91
+ 4400,
92
+ 4450,
93
+ 4500,
94
+ 4550,
95
+ 4600,
96
+ 4650,
97
+ 4700,
98
+ 4750,
99
+ 4800,
100
+ 4850,
101
+ 4900,
102
+ 4950,
103
+ 5000,
104
+ 5050,
105
+ 5100,
106
+ 5150,
107
+ 5200,
108
+ 5250,
109
+ 5300,
110
+ 5350,
111
+ 5400,
112
+ 5450,
113
+ 5500,
114
+ 5550,
115
+ 5600,
116
+ 5650,
117
+ 5700,
118
+ 5750,
119
+ 5800,
120
+ 5850,
121
+ 5900,
122
+ 5950,
123
+ 6000,
124
+ 6050,
125
+ 6100,
126
+ 6150,
127
+ 6200,
128
+ 6250,
129
+ 6300,
130
+ 6350,
131
+ 6400,
132
+ 6450,
133
+ 6500,
134
+ 6550,
135
+ 6600,
136
+ 6650,
137
+ 6700,
138
+ 6750,
139
+ 6800,
140
+ 6850,
141
+ 6900,
142
+ 6950,
143
+ 7000,
144
+ 7050,
145
+ 7100,
146
+ 7150,
147
+ 7200,
148
+ 7250,
149
+ 7300,
150
+ 7350,
151
+ 7400,
152
+ 7450,
153
+ 7500,
154
+ 7550,
155
+ 7600,
156
+ 7650,
157
+ 7700,
158
+ 7750,
159
+ 7800,
160
+ 7850,
161
+ 7900,
162
+ 7950,
163
+ 8000,
164
+ 8050,
165
+ 8100,
166
+ 8150,
167
+ 8200,
168
+ 8250,
169
+ 8300,
170
+ 8350,
171
+ 8400,
172
+ 8450,
173
+ 8500,
174
+ 8550,
175
+ 8600,
176
+ 8650,
177
+ 8700,
178
+ 8750,
179
+ 8800,
180
+ 8850,
181
+ 8900,
182
+ 8950,
183
+ 9000,
184
+ 9050,
185
+ 9100,
186
+ 9150,
187
+ 9200,
188
+ 9250,
189
+ 9300,
190
+ 9350,
191
+ 9400,
192
+ 9450,
193
+ 9500,
194
+ 9550,
195
+ 9600,
196
+ 9650,
197
+ 9700,
198
+ 9750,
199
+ 9800,
200
+ 9850,
201
+ 9900,
202
+ 9950,
203
+ 10000,
204
+ 10050,
205
+ 10100,
206
+ 10150,
207
+ 10200,
208
+ 10250,
209
+ 10300,
210
+ 10350,
211
+ 10400,
212
+ 10450,
213
+ 10500,
214
+ 10550,
215
+ 10600,
216
+ 10650,
217
+ 10700,
218
+ 10750,
219
+ 10800,
220
+ 10850,
221
+ 10900,
222
+ 10950,
223
+ 11000,
224
+ 11050,
225
+ 11100,
226
+ 11150,
227
+ 11200,
228
+ 11250,
229
+ 11300,
230
+ 11350,
231
+ 11400,
232
+ 11450,
233
+ 11500,
234
+ 11550,
235
+ 11600,
236
+ 11650,
237
+ 11700
238
+ ],
239
+ "loss": [
240
+ 11.527762413024902,
241
+ 9.60785961151123,
242
+ 8.368090629577637,
243
+ 7.383299350738525,
244
+ 7.280657768249512,
245
+ 6.5229620933532715,
246
+ 6.247063636779785,
247
+ 5.47233247756958,
248
+ 5.035149574279785,
249
+ 4.5038347244262695,
250
+ 3.891714334487915,
251
+ 3.095801830291748,
252
+ 2.6873838901519775,
253
+ 2.2019026279449463,
254
+ 1.9425586462020874,
255
+ 1.8074508905410767,
256
+ 1.5963990688323975,
257
+ 1.580202341079712,
258
+ 1.3961509466171265,
259
+ 1.356629729270935,
260
+ 1.0582406520843506,
261
+ 0.8591527938842773,
262
+ 0.6051973104476929,
263
+ 0.5020413994789124,
264
+ 0.3830282390117645,
265
+ 0.3321951925754547,
266
+ 0.2272447794675827,
267
+ 0.20413623750209808,
268
+ 0.2055785208940506,
269
+ 0.20350274443626404,
270
+ 0.21641121804714203,
271
+ 0.15464866161346436,
272
+ 0.1415574997663498,
273
+ 0.09492872655391693,
274
+ 0.057180773466825485,
275
+ 0.10457637161016464,
276
+ 0.07520271837711334,
277
+ 0.06334521621465683,
278
+ 0.03505897521972656,
279
+ 0.05057087540626526,
280
+ 0.020688626915216446,
281
+ 0.12356334179639816,
282
+ 0.028574582189321518,
283
+ 0.006245631258934736,
284
+ 0.007917485199868679,
285
+ 0.010751918889582157,
286
+ 0.012803385965526104,
287
+ 0.028944775462150574,
288
+ 0.008806764148175716,
289
+ 0.013823815621435642,
290
+ 0.0017021530074998736,
291
+ 0.011414808221161366,
292
+ 0.0220631193369627,
293
+ 0.05565088614821434,
294
+ 0.010557984933257103,
295
+ 0.012765188701450825,
296
+ 0.0020553823560476303,
297
+ 0.0034588086418807507,
298
+ 0.0006399106932803988,
299
+ 0.0011771806748583913,
300
+ 0.0023959032259881496,
301
+ 0.0023975500371307135,
302
+ 0.018105758354067802,
303
+ 0.04133778065443039,
304
+ 0.0013915597228333354,
305
+ 0.006245000753551722,
306
+ 0.0005129611818119884,
307
+ 0.0005555239040404558,
308
+ 0.012398910708725452,
309
+ 0.00034711038460955024,
310
+ 0.031024495139718056,
311
+ 0.0004809148085769266,
312
+ 0.0059379274025559425,
313
+ 0.0019757128320634365,
314
+ 0.002303863177075982,
315
+ 0.008580265566706657,
316
+ 0.044498324394226074,
317
+ 0.0005247122026048601,
318
+ 0.0002977796539198607,
319
+ 0.0001751357049215585,
320
+ 0.00045993420644663274,
321
+ 0.001147810253314674,
322
+ 0.00020777320605702698,
323
+ 0.001379889203235507,
324
+ 0.10030525177717209,
325
+ 0.0011350951390340924,
326
+ 9.659335046308115e-05,
327
+ 0.017756644636392593,
328
+ 0.00024583865888416767,
329
+ 0.0007470060954801738,
330
+ 0.0035779124591499567,
331
+ 6.258876237552613e-05,
332
+ 0.00015140332106966525,
333
+ 0.00010764774197014049,
334
+ 0.0004173603665549308,
335
+ 0.00039286998799070716,
336
+ 0.009674607776105404,
337
+ 0.0008037807419896126,
338
+ 0.0003438284620642662,
339
+ 2.7261923605692573e-05,
340
+ 1.9322336811455898e-05,
341
+ 1.4822441698925104e-05,
342
+ 1.2943323781655636e-05,
343
+ 9.299021257902496e-06,
344
+ 8.155104296747595e-06,
345
+ 5.793860964331543e-06,
346
+ 4.422701294970466e-06,
347
+ 3.674987965496257e-06,
348
+ 2.6510701900406275e-06,
349
+ 1.8860583850255352e-06,
350
+ 1.303584099332511e-06,
351
+ 1.0718167686718516e-06,
352
+ 6.710839670631685e-07,
353
+ 0.0009319929522462189,
354
+ 0.005028906278312206,
355
+ 0.0005372653831727803,
356
+ 0.001486061024479568,
357
+ 0.00043799448758363724,
358
+ 6.41662427369738e-06,
359
+ 2.2846294086775742e-05,
360
+ 0.0011698914458975196,
361
+ 1.411192806699546e-05,
362
+ 3.597779368647025e-06,
363
+ 2.8835968350904295e-06,
364
+ 2.1955186184641207e-06,
365
+ 1.761260364219197e-06,
366
+ 2.0156246591795934e-06,
367
+ 1.3381753660723916e-06,
368
+ 1.087783516595664e-06,
369
+ 8.376574101021106e-07,
370
+ 7.514436788369494e-07,
371
+ 6.274443649090244e-07,
372
+ 4.76836959251159e-07,
373
+ 4.37189243029934e-07,
374
+ 2.9376568022598804e-07,
375
+ 8.245482604252174e-06,
376
+ 1.9750748833757825e-05,
377
+ 3.447827793934266e-06,
378
+ 1.0258479960612021e-05,
379
+ 1.7356948092128732e-06,
380
+ 9.67773644333647e-07,
381
+ 9.065719837053621e-07,
382
+ 8.836892106955929e-07,
383
+ 7.876305971876718e-07,
384
+ 6.122771765149082e-07,
385
+ 5.670402174473566e-07,
386
+ 0.00046179426135495305,
387
+ 3.868092335324036e-06,
388
+ 6.624807610933203e-06,
389
+ 0.00026054339832626283,
390
+ 1.8271704902872443e-05,
391
+ 2.229476649517892e-06,
392
+ 1.5850853287702193e-06,
393
+ 1.3381724784267135e-05,
394
+ 2.807744749588892e-06,
395
+ 1.2921385632580495e-06,
396
+ 1.3796767461826676e-06,
397
+ 8.291417543659918e-07,
398
+ 7.852366934457677e-07,
399
+ 5.457544602904818e-07,
400
+ 4.74442003906006e-07,
401
+ 4.313349393214594e-07,
402
+ 3.2223741186498955e-07,
403
+ 3.009499778272584e-07,
404
+ 2.394828584328934e-07,
405
+ 2.394824036855425e-07,
406
+ 1.381017682433594e-07,
407
+ 1.0058282384761696e-07,
408
+ 7.423970060926877e-08,
409
+ 5.907244826630631e-08,
410
+ 4.7896580923634247e-08,
411
+ 3.299542328250027e-08,
412
+ 2.7673580760279037e-08,
413
+ 1.969081608876877e-08,
414
+ 1.889254086506753e-08,
415
+ 1.862644971595273e-08,
416
+ 1.7562081566779852e-08,
417
+ 1.6763804566721774e-08,
418
+ 1.330460630555308e-08,
419
+ 9.313224857976365e-09,
420
+ 9.579316895269585e-09,
421
+ 8.514947857918287e-09,
422
+ 7.450580152834618e-09,
423
+ 8.514947857918287e-09,
424
+ 1.1441962044500542e-08,
425
+ 8.781040783389926e-09,
426
+ 9.047132820683146e-09,
427
+ 7.184488115541399e-09,
428
+ 1.1175870007207322e-08,
429
+ 9.579316895269585e-09,
430
+ 8.781040783389926e-09,
431
+ 6.6523035968657496e-09,
432
+ 6.65230315277654e-09,
433
+ 8.781040783389926e-09,
434
+ 8.514947857918287e-09,
435
+ 6.918395190069759e-09,
436
+ 9.579316895269585e-09,
437
+ 8.248855820625067e-09,
438
+ 6.38621155957253e-09,
439
+ 6.1201190781901005e-09,
440
+ 6.6523035968657496e-09,
441
+ 7.982763783331848e-09,
442
+ 1.0111500969856024e-08,
443
+ 8.248855820625067e-09,
444
+ 7.982763783331848e-09,
445
+ 7.716671746038628e-09,
446
+ 7.184487227362979e-09,
447
+ 7.716672634217048e-09,
448
+ 7.184488115541399e-09,
449
+ 5.321842966310442e-09,
450
+ 8.514947857918287e-09,
451
+ 6.918395634158969e-09,
452
+ 5.854027040896881e-09,
453
+ 6.65230315277654e-09,
454
+ 9.579316895269585e-09,
455
+ 9.047132820683146e-09,
456
+ 6.38621155957253e-09,
457
+ 6.6523035968657496e-09,
458
+ 1.0377593007149244e-08,
459
+ 5.321842966310442e-09,
460
+ 7.184487227362979e-09,
461
+ 4.2574739289591434e-09,
462
+ 6.1201190781901005e-09,
463
+ 7.982763783331848e-09,
464
+ 7.716671746038628e-09,
465
+ 7.982763783331848e-09,
466
+ 7.184488115541399e-09,
467
+ 8.514947857918287e-09,
468
+ 9.845408932562805e-09,
469
+ 6.6523035968657496e-09,
470
+ 7.716671746038628e-09,
471
+ 6.65230315277654e-09,
472
+ 5.321842966310442e-09,
473
+ 6.6523035968657496e-09
474
+ ],
475
+ "base_loss": [
476
+ 11.527762413024902,
477
+ 9.60785961151123,
478
+ 8.368090629577637,
479
+ 7.383299350738525,
480
+ 7.280657768249512,
481
+ 6.5229620933532715,
482
+ 6.247063636779785,
483
+ 5.47233247756958,
484
+ 5.035149574279785,
485
+ 4.5038347244262695,
486
+ 3.891714334487915,
487
+ 3.095801830291748,
488
+ 2.6873838901519775,
489
+ 2.2019026279449463,
490
+ 1.9425586462020874,
491
+ 1.8074508905410767,
492
+ 1.5963990688323975,
493
+ 1.580202341079712,
494
+ 1.3961509466171265,
495
+ 1.356629729270935,
496
+ 1.0582406520843506,
497
+ 0.8591527938842773,
498
+ 0.6051973104476929,
499
+ 0.5020413994789124,
500
+ 0.3830282390117645,
501
+ 0.3321951925754547,
502
+ 0.2272447794675827,
503
+ 0.20413623750209808,
504
+ 0.2055785208940506,
505
+ 0.20350274443626404,
506
+ 0.21641121804714203,
507
+ 0.15464866161346436,
508
+ 0.1415574997663498,
509
+ 0.09492872655391693,
510
+ 0.057180773466825485,
511
+ 0.10457637161016464,
512
+ 0.07520271837711334,
513
+ 0.06334521621465683,
514
+ 0.03505897521972656,
515
+ 0.05057087540626526,
516
+ 0.020688626915216446,
517
+ 0.12356334179639816,
518
+ 0.028574582189321518,
519
+ 0.006245631258934736,
520
+ 0.007917485199868679,
521
+ 0.010751918889582157,
522
+ 0.012803385965526104,
523
+ 0.028944775462150574,
524
+ 0.008806764148175716,
525
+ 0.013823815621435642,
526
+ 0.0017021530074998736,
527
+ 0.011414808221161366,
528
+ 0.0220631193369627,
529
+ 0.05565088614821434,
530
+ 0.010557984933257103,
531
+ 0.012765188701450825,
532
+ 0.0020553823560476303,
533
+ 0.0034588086418807507,
534
+ 0.0006399106932803988,
535
+ 0.0011771806748583913,
536
+ 0.0023959032259881496,
537
+ 0.0023975500371307135,
538
+ 0.018105758354067802,
539
+ 0.04133778065443039,
540
+ 0.0013915597228333354,
541
+ 0.006245000753551722,
542
+ 0.0005129611818119884,
543
+ 0.0005555239040404558,
544
+ 0.012398910708725452,
545
+ 0.00034711038460955024,
546
+ 0.031024495139718056,
547
+ 0.0004809148085769266,
548
+ 0.0059379274025559425,
549
+ 0.0019757128320634365,
550
+ 0.002303863177075982,
551
+ 0.008580265566706657,
552
+ 0.044498324394226074,
553
+ 0.0005247122026048601,
554
+ 0.0002977796539198607,
555
+ 0.0001751357049215585,
556
+ 0.00045993420644663274,
557
+ 0.001147810253314674,
558
+ 0.00020777320605702698,
559
+ 0.001379889203235507,
560
+ 0.10030525177717209,
561
+ 0.0011350951390340924,
562
+ 9.659335046308115e-05,
563
+ 0.017756644636392593,
564
+ 0.00024583865888416767,
565
+ 0.0007470060954801738,
566
+ 0.0035779124591499567,
567
+ 6.258876237552613e-05,
568
+ 0.00015140332106966525,
569
+ 0.00010764774197014049,
570
+ 0.0004173603665549308,
571
+ 0.00039286998799070716,
572
+ 0.009674607776105404,
573
+ 0.0008037807419896126,
574
+ 0.0003438284620642662,
575
+ 2.7261923605692573e-05,
576
+ 1.9322336811455898e-05,
577
+ 1.4822441698925104e-05,
578
+ 1.2943323781655636e-05,
579
+ 9.299021257902496e-06,
580
+ 8.155104296747595e-06,
581
+ 5.793860964331543e-06,
582
+ 4.422701294970466e-06,
583
+ 3.674987965496257e-06,
584
+ 2.6510701900406275e-06,
585
+ 1.8860583850255352e-06,
586
+ 1.303584099332511e-06,
587
+ 1.0718167686718516e-06,
588
+ 6.710839670631685e-07,
589
+ 0.0009319929522462189,
590
+ 0.005028906278312206,
591
+ 0.0005372653831727803,
592
+ 0.001486061024479568,
593
+ 0.00043799448758363724,
594
+ 6.41662427369738e-06,
595
+ 2.2846294086775742e-05,
596
+ 0.0011698914458975196,
597
+ 1.411192806699546e-05,
598
+ 3.597779368647025e-06,
599
+ 2.8835968350904295e-06,
600
+ 2.1955186184641207e-06,
601
+ 1.761260364219197e-06,
602
+ 2.0156246591795934e-06,
603
+ 1.3381753660723916e-06,
604
+ 1.087783516595664e-06,
605
+ 8.376574101021106e-07,
606
+ 7.514436788369494e-07,
607
+ 6.274443649090244e-07,
608
+ 4.76836959251159e-07,
609
+ 4.37189243029934e-07,
610
+ 2.9376568022598804e-07,
611
+ 8.245482604252174e-06,
612
+ 1.9750748833757825e-05,
613
+ 3.447827793934266e-06,
614
+ 1.0258479960612021e-05,
615
+ 1.7356948092128732e-06,
616
+ 9.67773644333647e-07,
617
+ 9.065719837053621e-07,
618
+ 8.836892106955929e-07,
619
+ 7.876305971876718e-07,
620
+ 6.122771765149082e-07,
621
+ 5.670402174473566e-07,
622
+ 0.00046179426135495305,
623
+ 3.868092335324036e-06,
624
+ 6.624807610933203e-06,
625
+ 0.00026054339832626283,
626
+ 1.8271704902872443e-05,
627
+ 2.229476649517892e-06,
628
+ 1.5850853287702193e-06,
629
+ 1.3381724784267135e-05,
630
+ 2.807744749588892e-06,
631
+ 1.2921385632580495e-06,
632
+ 1.3796767461826676e-06,
633
+ 8.291417543659918e-07,
634
+ 7.852366934457677e-07,
635
+ 5.457544602904818e-07,
636
+ 4.74442003906006e-07,
637
+ 4.313349393214594e-07,
638
+ 3.2223741186498955e-07,
639
+ 3.009499778272584e-07,
640
+ 2.394828584328934e-07,
641
+ 2.394824036855425e-07,
642
+ 1.381017682433594e-07,
643
+ 1.0058282384761696e-07,
644
+ 7.423970060926877e-08,
645
+ 5.907244826630631e-08,
646
+ 4.7896580923634247e-08,
647
+ 3.299542328250027e-08,
648
+ 2.7673580760279037e-08,
649
+ 1.969081608876877e-08,
650
+ 1.889254086506753e-08,
651
+ 1.862644971595273e-08,
652
+ 1.7562081566779852e-08,
653
+ 1.6763804566721774e-08,
654
+ 1.330460630555308e-08,
655
+ 9.313224857976365e-09,
656
+ 9.579316895269585e-09,
657
+ 8.514947857918287e-09,
658
+ 7.450580152834618e-09,
659
+ 8.514947857918287e-09,
660
+ 1.1441962044500542e-08,
661
+ 8.781040783389926e-09,
662
+ 9.047132820683146e-09,
663
+ 7.184488115541399e-09,
664
+ 1.1175870007207322e-08,
665
+ 9.579316895269585e-09,
666
+ 8.781040783389926e-09,
667
+ 6.6523035968657496e-09,
668
+ 6.65230315277654e-09,
669
+ 8.781040783389926e-09,
670
+ 8.514947857918287e-09,
671
+ 6.918395190069759e-09,
672
+ 9.579316895269585e-09,
673
+ 8.248855820625067e-09,
674
+ 6.38621155957253e-09,
675
+ 6.1201190781901005e-09,
676
+ 6.6523035968657496e-09,
677
+ 7.982763783331848e-09,
678
+ 1.0111500969856024e-08,
679
+ 8.248855820625067e-09,
680
+ 7.982763783331848e-09,
681
+ 7.716671746038628e-09,
682
+ 7.184487227362979e-09,
683
+ 7.716672634217048e-09,
684
+ 7.184488115541399e-09,
685
+ 5.321842966310442e-09,
686
+ 8.514947857918287e-09,
687
+ 6.918395634158969e-09,
688
+ 5.854027040896881e-09,
689
+ 6.65230315277654e-09,
690
+ 9.579316895269585e-09,
691
+ 9.047132820683146e-09,
692
+ 6.38621155957253e-09,
693
+ 6.6523035968657496e-09,
694
+ 1.0377593007149244e-08,
695
+ 5.321842966310442e-09,
696
+ 7.184487227362979e-09,
697
+ 4.2574739289591434e-09,
698
+ 6.1201190781901005e-09,
699
+ 7.982763783331848e-09,
700
+ 7.716671746038628e-09,
701
+ 7.982763783331848e-09,
702
+ 7.184488115541399e-09,
703
+ 8.514947857918287e-09,
704
+ 9.845408932562805e-09,
705
+ 6.6523035968657496e-09,
706
+ 7.716671746038628e-09,
707
+ 6.65230315277654e-09,
708
+ 5.321842966310442e-09,
709
+ 6.6523035968657496e-09
710
+ ],
711
+ "lr": [
712
+ 1.6723549488054611e-06,
713
+ 3.378839590443686e-06,
714
+ 5.085324232081912e-06,
715
+ 6.791808873720137e-06,
716
+ 8.498293515358363e-06,
717
+ 1.0204778156996587e-05,
718
+ 1.1911262798634814e-05,
719
+ 1.3617747440273039e-05,
720
+ 1.5324232081911263e-05,
721
+ 1.703071672354949e-05,
722
+ 1.8737201365187715e-05,
723
+ 2.044368600682594e-05,
724
+ 2.2150170648464163e-05,
725
+ 2.385665529010239e-05,
726
+ 2.556313993174062e-05,
727
+ 2.726962457337884e-05,
728
+ 2.8976109215017067e-05,
729
+ 3.068259385665529e-05,
730
+ 3.2389078498293516e-05,
731
+ 3.4095563139931745e-05,
732
+ 3.580204778156997e-05,
733
+ 3.75085324232082e-05,
734
+ 3.921501706484642e-05,
735
+ 4.092150170648464e-05,
736
+ 4.262798634812287e-05,
737
+ 4.43344709897611e-05,
738
+ 4.6040955631399317e-05,
739
+ 4.7747440273037546e-05,
740
+ 4.945392491467577e-05,
741
+ 5.1160409556314e-05,
742
+ 5.286689419795223e-05,
743
+ 5.457337883959044e-05,
744
+ 5.627986348122867e-05,
745
+ 5.79863481228669e-05,
746
+ 5.9692832764505124e-05,
747
+ 6.139931740614335e-05,
748
+ 6.310580204778158e-05,
749
+ 6.481228668941979e-05,
750
+ 6.651877133105803e-05,
751
+ 6.822525597269625e-05,
752
+ 6.993174061433447e-05,
753
+ 7.16382252559727e-05,
754
+ 7.334470989761093e-05,
755
+ 7.505119453924915e-05,
756
+ 7.675767918088738e-05,
757
+ 7.846416382252561e-05,
758
+ 7.999994387687875e-05,
759
+ 7.999320929288793e-05,
760
+ 7.997525225003474e-05,
761
+ 7.9946077787229e-05,
762
+ 7.990569409109077e-05,
763
+ 7.985411249365304e-05,
764
+ 7.979134746918198e-05,
765
+ 7.971741663011522e-05,
766
+ 7.963234072211973e-05,
767
+ 7.953614361827032e-05,
768
+ 7.942885231235067e-05,
769
+ 7.931049691127864e-05,
770
+ 7.918111062665798e-05,
771
+ 7.904072976545885e-05,
772
+ 7.888939371982977e-05,
773
+ 7.872714495604378e-05,
774
+ 7.85540290025821e-05,
775
+ 7.837009443735831e-05,
776
+ 7.817539287408707e-05,
777
+ 7.796997894780074e-05,
778
+ 7.775391029951834e-05,
779
+ 7.752724756007093e-05,
780
+ 7.72900543330881e-05,
781
+ 7.704239717715015e-05,
782
+ 7.678434558711115e-05,
783
+ 7.651597197459809e-05,
784
+ 7.623735164769155e-05,
785
+ 7.594856278979342e-05,
786
+ 7.564968643768808e-05,
787
+ 7.53408064588027e-05,
788
+ 7.502200952767318e-05,
789
+ 7.469338510162264e-05,
790
+ 7.435502539565875e-05,
791
+ 7.400702535659744e-05,
792
+ 7.364948263641994e-05,
793
+ 7.328249756487067e-05,
794
+ 7.290617312130396e-05,
795
+ 7.252061490578694e-05,
796
+ 7.212593110946728e-05,
797
+ 7.172223248421377e-05,
798
+ 7.13096323115383e-05,
799
+ 7.08882463708081e-05,
800
+ 7.045819290675694e-05,
801
+ 7.001959259630454e-05,
802
+ 6.957256851469366e-05,
803
+ 6.911724610095394e-05,
804
+ 6.865375312270262e-05,
805
+ 6.818221964029179e-05,
806
+ 6.770277797031225e-05,
807
+ 6.721556264846422e-05,
808
+ 6.672071039180557e-05,
809
+ 6.621836006038756e-05,
810
+ 6.570865261828953e-05,
811
+ 6.519173109406314e-05,
812
+ 6.466774054059721e-05,
813
+ 6.413682799441454e-05,
814
+ 6.359914243441216e-05,
815
+ 6.305483474005648e-05,
816
+ 6.250405764904512e-05,
817
+ 6.194696571444738e-05,
818
+ 6.138371526133514e-05,
819
+ 6.081446434291672e-05,
820
+ 6.0239372696185644e-05,
821
+ 5.965860169709706e-05,
822
+ 5.907231431528405e-05,
823
+ 5.848067506832697e-05,
824
+ 5.788384997558835e-05,
825
+ 5.728200651162618e-05,
826
+ 5.667531355919924e-05,
827
+ 5.606394136187687e-05,
828
+ 5.5448061476267194e-05,
829
+ 5.482784672387675e-05,
830
+ 5.420347114261514e-05,
831
+ 5.357510993795849e-05,
832
+ 5.294293943378513e-05,
833
+ 5.230713702289755e-05,
834
+ 5.1667881117244385e-05,
835
+ 5.102535109785628e-05,
836
+ 5.037972726451011e-05,
837
+ 4.973119078513507e-05,
838
+ 4.9079923644975386e-05,
839
+ 4.842610859552357e-05,
840
+ 4.7769929103238724e-05,
841
+ 4.711156929806411e-05,
842
+ 4.645121392175865e-05,
843
+ 4.578904827605673e-05,
844
+ 4.5125258170670815e-05,
845
+ 4.4460029871151516e-05,
846
+ 4.37935500466199e-05,
847
+ 4.312600571738626e-05,
848
+ 4.245758420247067e-05,
849
+ 4.178847306703949e-05,
850
+ 4.1118860069772856e-05,
851
+ 4.0448933110177934e-05,
852
+ 3.9778880175862544e-05,
853
+ 3.91088892897842e-05,
854
+ 3.843914845748907e-05,
855
+ 3.7769845614355994e-05,
856
+ 3.710116857286006e-05,
857
+ 3.6433304969870695e-05,
858
+ 3.5766442213999064e-05,
859
+ 3.510076743300955e-05,
860
+ 3.443646742130994e-05,
861
+ 3.3773728587535196e-05,
862
+ 3.3112736902239625e-05,
863
+ 3.245367784571167e-05,
864
+ 3.1796736355926556e-05,
865
+ 3.1142096776651025e-05,
866
+ 3.0489942805714706e-05,
867
+ 2.984045744346295e-05,
868
+ 2.9193822941405118e-05,
869
+ 2.8550220751073297e-05,
870
+ 2.7909831473105265e-05,
871
+ 2.7272834806566284e-05,
872
+ 2.6639409498523995e-05,
873
+ 2.6009733293890285e-05,
874
+ 2.5383982885544446e-05,
875
+ 2.4762333864751625e-05,
876
+ 2.41449606718902e-05,
877
+ 2.353203654750234e-05,
878
+ 2.2923733483680996e-05,
879
+ 2.23202221758075e-05,
880
+ 2.1721671974652772e-05,
881
+ 2.1128250838855958e-05,
882
+ 2.054012528779383e-05,
883
+ 1.9957460354853774e-05,
884
+ 1.9380419541123997e-05,
885
+ 1.8809164769513625e-05,
886
+ 1.824385633931566e-05,
887
+ 1.7684652881225525e-05,
888
+ 1.7131711312827855e-05,
889
+ 1.6585186794563996e-05,
890
+ 1.6045232686192566e-05,
891
+ 1.551200050375531e-05,
892
+ 1.4985639877060315e-05,
893
+ 1.446629850769453e-05,
894
+ 1.3954122127577385e-05,
895
+ 1.3449254458066991e-05,
896
+ 1.2951837169630714e-05,
897
+ 1.2462009842091152e-05,
898
+ 1.1979909925458655e-05,
899
+ 1.1505672701361755e-05,
900
+ 1.1039431245085796e-05,
901
+ 1.0581316388230789e-05,
902
+ 1.0131456681998992e-05,
903
+ 9.68997836112215e-06,
904
+ 9.257005308438928e-06,
905
+ 8.832659020132261e-06,
906
+ 8.417058571636403e-06,
907
+ 8.01032058422329e-06,
908
+ 7.612559192277533e-06,
909
+ 7.223886011269297e-06,
910
+ 6.8444101064339385e-06,
911
+ 6.474237962167356e-06,
912
+ 6.113473452145467e-06,
913
+ 5.76221781017631e-06,
914
+ 5.420569601792953e-06,
915
+ 5.088624696595034e-06,
916
+ 4.76647624134694e-06,
917
+ 4.454214633839984e-06,
918
+ 4.151927497525883e-06,
919
+ 3.859699656928899e-06,
920
+ 3.5776131138432944e-06,
921
+ 3.3057470243228295e-06,
922
+ 3.0441776764688958e-06,
923
+ 2.7929784690233865e-06,
924
+ 2.5522198907723228e-06,
925
+ 2.321969500766024e-06,
926
+ 2.1022919093615136e-06,
927
+ 1.8932487600921722e-06,
928
+ 1.6948987123700567e-06,
929
+ 1.5072974250255023e-06,
930
+ 1.3304975406887777e-06,
931
+ 1.1645486710180554e-06,
932
+ 1.0094973827779441e-06,
933
+ 8.653871847724349e-07,
934
+ 7.322585156359108e-07,
935
+ 6.101487324857314e-07,
936
+ 4.990921004394489e-07,
937
+ 3.99119782999744e-07,
938
+ 3.102598333096163e-07,
939
+ 2.3253718628046373e-07,
940
+ 1.6597365159509272e-07,
941
+ 1.1058790758771587e-07,
942
+ 6.63954960026647e-08,
943
+ 3.340881763322035e-08,
944
+ 1.1637128841837098e-08,
945
+ 1.086538962731254e-09
946
+ ]
947
+ },
948
+ "final_accuracy": 1.0
949
+ }
add_baseline_250K/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e7233bf1df25d3d20449a43ccb9be00f5c412754dc2d0c2ca2f4195d856bfef9
3
+ size 671794850
add_baseline_250K/train_config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "mode": "baseline",
3
+ "ops": "add",
4
+ "n_digits": 6,
5
+ "n_layer": 3,
6
+ "n_head": 4,
7
+ "n_embd": 512,
8
+ "abs_vocab": 0,
9
+ "K": 4,
10
+ "batch_size": 64,
11
+ "num_epochs": 3,
12
+ "dataset_size": 250000,
13
+ "lr": 8e-05,
14
+ "output_dir": "ckpt/r/add_baseline_250K",
15
+ "device": "cuda",
16
+ "push_to_hub": true,
17
+ "no_wandb": false,
18
+ "n_params": 167871744,
19
+ "run_name": "add_baseline_250K",
20
+ "git_commit": "9e4530548a98f8c7f5c14930ac4aec4886bb4b1b",
21
+ "timestamp": "2026-04-07T05:29:32.985354",
22
+ "tokenizer": "Qwen/Qwen3-0.6B",
23
+ "dataset_repo": "thoughtworks/arithmetic-sorl-data",
24
+ "dataset_config": "add_6digit",
25
+ "model_repo": "thoughtworks/arithmetic-sorl",
26
+ "trainer_version": "sft",
27
+ "final_accuracy": 1.0
28
+ }