Yiming Tang's picture

1

Yiming Tang

tangyiming

AI & ML interests

None yet

Recent Activity

new activity 16 days ago

Qwen/Qwen3-Next-80B-A3B-Instruct:Megatron Swift dpo training on Qwen/Qwen3-Next-80B-A3B-Instruct always always return nan loss. Why?

View all activity

Organizations

None yet

New activity in Qwen/Qwen3-Next-80B-A3B-Instruct 16 days ago

Megatron Swift dpo training on Qwen/Qwen3-Next-80B-A3B-Instruct always always return nan loss. Why?

#45 opened 16 days ago by