Clockz commited on 11 days ago

Commit

4861bd0

verified ·

1 Parent(s): 6bbba0d

Add files using upload-large-folder tool

Browse files

Files changed (22) hide show

README.md +13 -3
id2-10_0.2easy_0.3medium_0.5hard/README.md +12 -2
id2-10_0.2easy_0.3medium_0.5hard/base/README.md +12 -2
id2-10_0.2easy_0.3medium_0.5hard/rl/op11-14_uniform/README.md +12 -2
id2-10_0.2easy_0.3medium_0.5hard/rl/op17-20_uniform/README.md +12 -2
id2-10_0.2easy_0.3medium_0.5hard/rl/op7-10_uniform/README.md +12 -2
id2-10_0.2easy_0.3medium_0.5hard/rl/op9-12_uniform/README.md +12 -2
id2-10_0.475easy_0.475medium_0.05hard/README.md +12 -2
id2-10_0.475easy_0.475medium_0.05hard/base/README.md +12 -2
id2-10_0.475easy_0.475medium_0.05hard/rl/op11-14_uniform_process_strict/README.md +12 -2
id2-10_0.4995easy_0.4995medium_0.001hard/README.md +12 -2
id2-10_0.4995easy_0.4995medium_0.001hard/base/README.md +12 -2
id2-10_0.4995easy_0.4995medium_0.001hard/rl/op11-14_uniform/README.md +12 -2
id2-10_0.4995easy_0.4995medium_0.001hard/rl/op17-20_uniform/README.md +12 -2
id2-10_0.4995easy_0.4995medium_0.001hard/rl/op7-10_uniform/README.md +12 -2
id2-10_0.4995easy_0.4995medium_0.001hard/rl/op9-12_uniform/README.md +12 -2
id2-10_0.5easy_0.3medium_0.2hard/README.md +12 -2
id2-10_0.5easy_0.3medium_0.2hard/base/README.md +12 -2
id2-10_0.5easy_0.3medium_0.2hard/rl/op11-14_uniform/README.md +12 -2
id2-10_0.5easy_0.3medium_0.2hard/rl/op17-20_uniform/README.md +12 -2
id2-10_0.5easy_0.3medium_0.2hard/rl/op7-10_uniform/README.md +12 -2
id2-10_0.5easy_0.3medium_0.2hard/rl/op9-12_uniform/README.md +12 -2

README.md CHANGED Viewed

@@ -38,6 +38,16 @@ tokenizer = AutoTokenizer.from_pretrained(repo_id, subfolder=subdir)
 model = AutoModelForCausalLM.from_pretrained(repo_id, subfolder=subdir)
 ```
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 model = AutoModelForCausalLM.from_pretrained(repo_id, subfolder=subdir)
 ```
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.2easy_0.3medium_0.5hard/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 20% easy, 30% medium, 50% hard base mixture. This directory contains the base model and the final RL checkpoints for the associated extrapolation experiments.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 20% easy, 30% medium, 50% hard base mixture. This directory contains the base model and the final RL checkpoints for the associated extrapolation experiments.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.2easy_0.3medium_0.5hard/base/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Base model used to initialize the RL runs under this setting.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Base model used to initialize the RL runs under this setting.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.2easy_0.3medium_0.5hard/rl/op11-14_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.2easy_0.3medium_0.5hard/rl/op17-20_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.2easy_0.3medium_0.5hard/rl/op7-10_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.2easy_0.3medium_0.5hard/rl/op9-12_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.475easy_0.475medium_0.05hard/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 47.5% easy, 47.5% medium, 5% hard base mixture. This directory contains the base model and the final RL checkpoints for the associated extrapolation experiments.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 47.5% easy, 47.5% medium, 5% hard base mixture. This directory contains the base model and the final RL checkpoints for the associated extrapolation experiments.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.475easy_0.475medium_0.05hard/base/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Base model used to initialize the RL runs under this setting.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Base model used to initialize the RL runs under this setting.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.475easy_0.475medium_0.05hard/rl/op11-14_uniform_process_strict/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.4995easy_0.4995medium_0.001hard/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 49.95% easy, 49.95% medium, 0.1% hard base mixture. This directory contains the base model and the final RL checkpoints for the associated extrapolation experiments.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 49.95% easy, 49.95% medium, 0.1% hard base mixture. This directory contains the base model and the final RL checkpoints for the associated extrapolation experiments.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.4995easy_0.4995medium_0.001hard/base/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Base model used to initialize the RL runs under this setting.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Base model used to initialize the RL runs under this setting.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.4995easy_0.4995medium_0.001hard/rl/op11-14_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.4995easy_0.4995medium_0.001hard/rl/op17-20_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.4995easy_0.4995medium_0.001hard/rl/op7-10_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.4995easy_0.4995medium_0.001hard/rl/op9-12_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.5easy_0.3medium_0.2hard/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 50% easy, 30% medium, 20% hard base mixture. This directory contains the base model and the final RL checkpoints for the associated extrapolation experiments.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 50% easy, 30% medium, 20% hard base mixture. This directory contains the base model and the final RL checkpoints for the associated extrapolation experiments.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.5easy_0.3medium_0.2hard/base/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Base model used to initialize the RL runs under this setting.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Base model used to initialize the RL runs under this setting.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.5easy_0.3medium_0.2hard/rl/op11-14_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.5easy_0.3medium_0.2hard/rl/op17-20_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.5easy_0.3medium_0.2hard/rl/op7-10_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```

id2-10_0.5easy_0.3medium_0.2hard/rl/op9-12_uniform/README.md CHANGED Viewed

@@ -12,6 +12,16 @@ tags:
 Final RL checkpoint for this experiment variant.
-## Reference
-- Zhang, Charlie; Neubig, Graham; Yue, Xiang. "On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models." arXiv:2512.07783 (2025).

 Final RL checkpoint for this experiment variant.
+## Citation
+```bibtex
+@misc{zhang2025interplaypretrainingmidtrainingrl,
+      title={On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models},
+      author={Charlie Zhang and Graham Neubig and Xiang Yue},
+      year={2025},
+      eprint={2512.07783},
+      archivePrefix={arXiv},
+      primaryClass={cs.CL},
+      url={https://arxiv.org/abs/2512.07783},
+}
+```