amirali1985 commited on
Commit
a1a3bfe
·
verified ·
1 Parent(s): 6904bbc

Upload add_sub_baseline_100K

Browse files
add_sub_baseline_100K/config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "SorlModelWrapper"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": null,
10
+ "head_dim": 128,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 512,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 2048,
15
+ "layer_types": [
16
+ "full_attention",
17
+ "full_attention",
18
+ "full_attention"
19
+ ],
20
+ "max_position_embeddings": 128,
21
+ "max_window_layers": 28,
22
+ "model_type": "qwen3",
23
+ "num_attention_heads": 4,
24
+ "num_hidden_layers": 3,
25
+ "num_key_value_heads": 4,
26
+ "pad_token_id": null,
27
+ "rms_norm_eps": 1e-06,
28
+ "rope_parameters": {
29
+ "rope_theta": 10000.0,
30
+ "rope_type": "default"
31
+ },
32
+ "sliding_window": null,
33
+ "tie_word_embeddings": false,
34
+ "transformers_version": "5.5.0",
35
+ "use_cache": true,
36
+ "use_sliding_window": false,
37
+ "vocab_size": 151645
38
+ }
add_sub_baseline_100K/generation_config.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "output_attentions": false,
4
+ "output_hidden_states": false,
5
+ "transformers_version": "5.5.0",
6
+ "use_cache": true
7
+ }
add_sub_baseline_100K/metrics.json ADDED
@@ -0,0 +1,385 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "history": {
3
+ "step": [
4
+ 50,
5
+ 100,
6
+ 150,
7
+ 200,
8
+ 250,
9
+ 300,
10
+ 350,
11
+ 400,
12
+ 450,
13
+ 500,
14
+ 550,
15
+ 600,
16
+ 650,
17
+ 700,
18
+ 750,
19
+ 800,
20
+ 850,
21
+ 900,
22
+ 950,
23
+ 1000,
24
+ 1050,
25
+ 1100,
26
+ 1150,
27
+ 1200,
28
+ 1250,
29
+ 1300,
30
+ 1350,
31
+ 1400,
32
+ 1450,
33
+ 1500,
34
+ 1550,
35
+ 1600,
36
+ 1650,
37
+ 1700,
38
+ 1750,
39
+ 1800,
40
+ 1850,
41
+ 1900,
42
+ 1950,
43
+ 2000,
44
+ 2050,
45
+ 2100,
46
+ 2150,
47
+ 2200,
48
+ 2250,
49
+ 2300,
50
+ 2350,
51
+ 2400,
52
+ 2450,
53
+ 2500,
54
+ 2550,
55
+ 2600,
56
+ 2650,
57
+ 2700,
58
+ 2750,
59
+ 2800,
60
+ 2850,
61
+ 2900,
62
+ 2950,
63
+ 3000,
64
+ 3050,
65
+ 3100,
66
+ 3150,
67
+ 3200,
68
+ 3250,
69
+ 3300,
70
+ 3350,
71
+ 3400,
72
+ 3450,
73
+ 3500,
74
+ 3550,
75
+ 3600,
76
+ 3650,
77
+ 3700,
78
+ 3750,
79
+ 3800,
80
+ 3850,
81
+ 3900,
82
+ 3950,
83
+ 4000,
84
+ 4050,
85
+ 4100,
86
+ 4150,
87
+ 4200,
88
+ 4250,
89
+ 4300,
90
+ 4350,
91
+ 4400,
92
+ 4450,
93
+ 4500,
94
+ 4550,
95
+ 4600,
96
+ 4650
97
+ ],
98
+ "loss": [
99
+ 10.446642875671387,
100
+ 8.204933166503906,
101
+ 7.287497043609619,
102
+ 6.563387393951416,
103
+ 5.592346668243408,
104
+ 4.6155476570129395,
105
+ 3.5229132175445557,
106
+ 2.671051025390625,
107
+ 2.1285922527313232,
108
+ 1.856718897819519,
109
+ 1.7758562564849854,
110
+ 1.636636734008789,
111
+ 1.4528383016586304,
112
+ 0.7716706395149231,
113
+ 0.47104448080062866,
114
+ 0.30569639801979065,
115
+ 0.2391534149646759,
116
+ 0.17922067642211914,
117
+ 0.15349432826042175,
118
+ 0.1651923954486847,
119
+ 0.17999541759490967,
120
+ 0.19358131289482117,
121
+ 0.16539938747882843,
122
+ 0.1219974234700203,
123
+ 0.08426837623119354,
124
+ 0.07237092405557632,
125
+ 0.048519425094127655,
126
+ 0.10355325788259506,
127
+ 0.051684457808732986,
128
+ 0.09696381539106369,
129
+ 0.04080639407038689,
130
+ 0.036543793976306915,
131
+ 0.02337537333369255,
132
+ 0.023294461891055107,
133
+ 0.027975469827651978,
134
+ 0.03485460206866264,
135
+ 0.01895260438323021,
136
+ 0.014638577587902546,
137
+ 0.020639639347791672,
138
+ 0.010763270780444145,
139
+ 0.007144362665712833,
140
+ 0.024989277124404907,
141
+ 0.01930844970047474,
142
+ 0.023015184327960014,
143
+ 0.0063614509999752045,
144
+ 0.0028356898110359907,
145
+ 0.002119298791512847,
146
+ 0.020854128524661064,
147
+ 0.0018869990017265081,
148
+ 0.00558065390214324,
149
+ 0.006174446549266577,
150
+ 0.006082491483539343,
151
+ 0.0037679767701774836,
152
+ 0.007742547430098057,
153
+ 0.0011493159690871835,
154
+ 0.006048537325114012,
155
+ 0.00800343882292509,
156
+ 0.0007379369926638901,
157
+ 0.0028449923265725374,
158
+ 0.0014030687743797898,
159
+ 0.0009590271511115134,
160
+ 0.0025089881382882595,
161
+ 0.0003829688939731568,
162
+ 0.0003303142439108342,
163
+ 0.0003975001454818994,
164
+ 0.0034398504067212343,
165
+ 0.00010646107693901286,
166
+ 0.00044194384827278554,
167
+ 0.00020321234478615224,
168
+ 0.00010634677892085165,
169
+ 0.00026234029792249203,
170
+ 8.515844820067286e-05,
171
+ 6.779689283575863e-05,
172
+ 0.0002607057977002114,
173
+ 0.00036781796370632946,
174
+ 6.288080476224422e-05,
175
+ 8.045908907661214e-05,
176
+ 0.00011293154238956049,
177
+ 0.0005836685886606574,
178
+ 5.503458669409156e-05,
179
+ 8.547406469006091e-05,
180
+ 7.086647383403033e-05,
181
+ 4.5273562136571854e-05,
182
+ 4.361348692327738e-05,
183
+ 3.827679392998107e-05,
184
+ 4.5121512812329456e-05,
185
+ 5.49159522051923e-05,
186
+ 7.655313675059006e-05,
187
+ 4.943844396620989e-05,
188
+ 3.6672678106697276e-05,
189
+ 4.1609022446209565e-05,
190
+ 7.665202429052442e-05,
191
+ 3.566138548194431e-05
192
+ ],
193
+ "base_loss": [
194
+ 10.446642875671387,
195
+ 8.204933166503906,
196
+ 7.287497043609619,
197
+ 6.563387393951416,
198
+ 5.592346668243408,
199
+ 4.6155476570129395,
200
+ 3.5229132175445557,
201
+ 2.671051025390625,
202
+ 2.1285922527313232,
203
+ 1.856718897819519,
204
+ 1.7758562564849854,
205
+ 1.636636734008789,
206
+ 1.4528383016586304,
207
+ 0.7716706395149231,
208
+ 0.47104448080062866,
209
+ 0.30569639801979065,
210
+ 0.2391534149646759,
211
+ 0.17922067642211914,
212
+ 0.15349432826042175,
213
+ 0.1651923954486847,
214
+ 0.17999541759490967,
215
+ 0.19358131289482117,
216
+ 0.16539938747882843,
217
+ 0.1219974234700203,
218
+ 0.08426837623119354,
219
+ 0.07237092405557632,
220
+ 0.048519425094127655,
221
+ 0.10355325788259506,
222
+ 0.051684457808732986,
223
+ 0.09696381539106369,
224
+ 0.04080639407038689,
225
+ 0.036543793976306915,
226
+ 0.02337537333369255,
227
+ 0.023294461891055107,
228
+ 0.027975469827651978,
229
+ 0.03485460206866264,
230
+ 0.01895260438323021,
231
+ 0.014638577587902546,
232
+ 0.020639639347791672,
233
+ 0.010763270780444145,
234
+ 0.007144362665712833,
235
+ 0.024989277124404907,
236
+ 0.01930844970047474,
237
+ 0.023015184327960014,
238
+ 0.0063614509999752045,
239
+ 0.0028356898110359907,
240
+ 0.002119298791512847,
241
+ 0.020854128524661064,
242
+ 0.0018869990017265081,
243
+ 0.00558065390214324,
244
+ 0.006174446549266577,
245
+ 0.006082491483539343,
246
+ 0.0037679767701774836,
247
+ 0.007742547430098057,
248
+ 0.0011493159690871835,
249
+ 0.006048537325114012,
250
+ 0.00800343882292509,
251
+ 0.0007379369926638901,
252
+ 0.0028449923265725374,
253
+ 0.0014030687743797898,
254
+ 0.0009590271511115134,
255
+ 0.0025089881382882595,
256
+ 0.0003829688939731568,
257
+ 0.0003303142439108342,
258
+ 0.0003975001454818994,
259
+ 0.0034398504067212343,
260
+ 0.00010646107693901286,
261
+ 0.00044194384827278554,
262
+ 0.00020321234478615224,
263
+ 0.00010634677892085165,
264
+ 0.00026234029792249203,
265
+ 8.515844820067286e-05,
266
+ 6.779689283575863e-05,
267
+ 0.0002607057977002114,
268
+ 0.00036781796370632946,
269
+ 6.288080476224422e-05,
270
+ 8.045908907661214e-05,
271
+ 0.00011293154238956049,
272
+ 0.0005836685886606574,
273
+ 5.503458669409156e-05,
274
+ 8.547406469006091e-05,
275
+ 7.086647383403033e-05,
276
+ 4.5273562136571854e-05,
277
+ 4.361348692327738e-05,
278
+ 3.827679392998107e-05,
279
+ 4.5121512812329456e-05,
280
+ 5.49159522051923e-05,
281
+ 7.655313675059006e-05,
282
+ 4.943844396620989e-05,
283
+ 3.6672678106697276e-05,
284
+ 4.1609022446209565e-05,
285
+ 7.665202429052442e-05,
286
+ 3.566138548194431e-05
287
+ ],
288
+ "lr": [
289
+ 4.183564567769478e-06,
290
+ 8.452508004268944e-06,
291
+ 1.2721451440768411e-05,
292
+ 1.6990394877267876e-05,
293
+ 2.1259338313767342e-05,
294
+ 2.5528281750266808e-05,
295
+ 2.979722518676628e-05,
296
+ 3.406616862326574e-05,
297
+ 3.8335112059765206e-05,
298
+ 4.260405549626468e-05,
299
+ 4.6872998932764145e-05,
300
+ 5.1141942369263614e-05,
301
+ 5.541088580576308e-05,
302
+ 5.9679829242262546e-05,
303
+ 6.394877267876202e-05,
304
+ 6.821771611526148e-05,
305
+ 7.248665955176095e-05,
306
+ 7.675560298826042e-05,
307
+ 7.999798087633018e-05,
308
+ 7.994611226578842e-05,
309
+ 7.982423928087593e-05,
310
+ 7.963257550037617e-05,
311
+ 7.937145680936735e-05,
312
+ 7.904134081059389e-05,
313
+ 7.864280602253109e-05,
314
+ 7.817655086554887e-05,
315
+ 7.764339243795064e-05,
316
+ 7.704426508403295e-05,
317
+ 7.638021875667483e-05,
318
+ 7.565241717732657e-05,
319
+ 7.486213579662251e-05,
320
+ 7.401075955919167e-05,
321
+ 7.309978047658348e-05,
322
+ 7.21307950125619e-05,
323
+ 7.11055012853501e-05,
324
+ 7.002569609172871e-05,
325
+ 6.889327175820302e-05,
326
+ 6.771021282475686e-05,
327
+ 6.647859256700532e-05,
328
+ 6.520056936284096e-05,
329
+ 6.387838290994056e-05,
330
+ 6.251435030076157e-05,
331
+ 6.111086196190657e-05,
332
+ 5.967037746497144e-05,
333
+ 5.819542121621955e-05,
334
+ 5.668857803263459e-05,
335
+ 5.515248861210576e-05,
336
+ 5.358984490568317e-05,
337
+ 5.200338540001364e-05,
338
+ 5.0395890318224263e-05,
339
+ 4.8770176747664026e-05,
340
+ 4.712909370304193e-05,
341
+ 4.547551713361344e-05,
342
+ 4.3812344883164867e-05,
343
+ 4.214249161162829e-05,
344
+ 4.046888368722666e-05,
345
+ 3.879445405810047e-05,
346
+ 3.712213711240329e-05,
347
+ 3.5454863535873805e-05,
348
+ 3.3795555175896186e-05,
349
+ 3.214711992104925e-05,
350
+ 3.051244660511836e-05,
351
+ 2.8894399944499974e-05,
352
+ 2.729581551787133e-05,
353
+ 2.5719494796923085e-05,
354
+ 2.4168200236863477e-05,
355
+ 2.264465043529768e-05,
356
+ 2.1151515367966308e-05,
357
+ 1.969141170969228e-05,
358
+ 1.826689824873599e-05,
359
+ 1.6880471402594932e-05,
360
+ 1.553456084310621e-05,
361
+ 1.4231525238518917e-05,
362
+ 1.2973648119998136e-05,
363
+ 1.1763133879804411e-05,
364
+ 1.0602103908161819e-05,
365
+ 9.492592875584728e-06,
366
+ 8.436545167178147e-06,
367
+ 7.43581147516069e-06,
368
+ 6.492145555581349e-06,
369
+ 5.607201154914275e-06,
370
+ 4.78252911191718e-06,
371
+ 4.019574639832518e-06,
372
+ 3.3196747936942342e-06,
373
+ 2.6840561271785694e-06,
374
+ 2.113832543105203e-06,
375
+ 1.6100033413556416e-06,
376
+ 1.1734514676299224e-06,
377
+ 8.049419661105129e-07,
378
+ 5.051206387450869e-07,
379
+ 2.7451291349783527e-07,
380
+ 1.1352292355256922e-07,
381
+ 2.2432799081339997e-08
382
+ ]
383
+ },
384
+ "final_accuracy": 1.0
385
+ }
add_sub_baseline_100K/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b1fa25258e7da94543218ca081ac521cb27604e416139b5a6a65144bb8ba97da
3
+ size 671794850
add_sub_baseline_100K/train_config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "mode": "baseline",
3
+ "ops": "add_sub",
4
+ "n_digits": 6,
5
+ "n_layer": 3,
6
+ "n_head": 4,
7
+ "n_embd": 512,
8
+ "abs_vocab": 0,
9
+ "K": 4,
10
+ "batch_size": 64,
11
+ "num_epochs": 3,
12
+ "dataset_size": 100000,
13
+ "lr": 8e-05,
14
+ "output_dir": "ckpt/r/add_sub_baseline_100K",
15
+ "device": "cuda",
16
+ "push_to_hub": true,
17
+ "no_wandb": false,
18
+ "n_params": 167871744,
19
+ "run_name": "add_sub_baseline_100K",
20
+ "git_commit": "9e4530548a98f8c7f5c14930ac4aec4886bb4b1b",
21
+ "timestamp": "2026-04-07T05:30:02.482767",
22
+ "tokenizer": "Qwen/Qwen3-0.6B",
23
+ "dataset_repo": "thoughtworks/arithmetic-sorl-data",
24
+ "dataset_config": "add_sub_6digit",
25
+ "model_repo": "thoughtworks/arithmetic-sorl",
26
+ "trainer_version": "sft",
27
+ "final_accuracy": 1.0
28
+ }