Siliang Zeng's picture

2

Siliang Zeng

SiliangZ

·

https://siliangzeng.github.io/index.html

AI & ML interests

Alignment, RLHF, LLM

Organizations

SiliangZ 's models 19

SiliangZ/zephyr-7b-dpo-full

7B • Updated Mar 14, 2025 • 3

SiliangZ/mistral-irl-iter2-iterative-dpo

Text Generation • 7B • Updated Jan 20, 2025 • 2

SiliangZ/RM_Zephyr_dpo_init_ultrafeedbck_lr_5e7

Text Classification • 7B • Updated Jan 19, 2025

SiliangZ/RM_Zephyr_dpo_init_ultrafeedbck_lr_5e6

Text Classification • 7B • Updated Jan 19, 2025 • 4

SiliangZ/RM_Mistral_sft_init_ultrafeedbck_lr_5e7

Text Classification • 7B • Updated Jan 19, 2025 • 3

SiliangZ/RM_Mistral_sft_init_ultrafeedbck_lr_5e6

Text Classification • 7B • Updated Jan 19, 2025 • 51

SiliangZ/RM_mistral_irl2_initilized_from_sft_lr_5e7_idpo

7B • Updated Dec 3, 2024

SiliangZ/RM_mistral_irl2_initilized_from_irl1_rm_lr_5e7_idpo

7B • Updated Dec 3, 2024

SiliangZ/RM_mistral_7b_sft_beta_ultrachat_200k_mistral_sft_temp07_lr_5e7

7B • Updated Dec 1, 2024 • 6

SiliangZ/mistral-7b-sft-beta-rm-mistral-sft-temp07-lr-5e7-iter1

Text Generation • 7B • Updated Dec 1, 2024

SiliangZ/RM_iter1_temp07_and_temp1_ACC_707

7B • Updated Sep 26, 2024

SiliangZ/IRL_RM_Iter1_temp07_temp1_zephyr_init

7B • Updated Sep 26, 2024

SiliangZ/IRL_RM_Iter1_temp07_temp1

7B • Updated Sep 24, 2024

SiliangZ/IRL_Iter0_RM_ultrachat_200k_vs_sft_with_spin_iter0_checkpoint_232

Text Generation • 7B • Updated Sep 11, 2024

SiliangZ/zephyr-7b-sft-full

Updated Sep 11, 2024

SiliangZ/IRL_Iter0_Policy_Epoch5_RM_Data_SPIN_Iter0

Text Generation • 7B • Updated Sep 8, 2024

SiliangZ/mistral_7b_reward_spin_iter0_data

7B • Updated Aug 29, 2024

SiliangZ/mistral_7b_reward_ultrafeedback_last_checkpoint

7B • Updated Aug 29, 2024

SiliangZ/mistral_7b_reward_preference700k

7B • Updated Aug 23, 2024