Mulebot
/

dei-model

renpas22 commited on Dec 18, 2025

Commit

9e7779a

1 Parent(s): ccd696b

Convert learning_rate to float explicitly

Files changed (1) hide show

src/reasoning/step_level_cot.py CHANGED Viewed

@@ -468,7 +468,7 @@ class StepLevelCoTTrainer:
         # Setup optimizer
         optimizer = torch.optim.AdamW(
             self.model.parameters(),
-            lr=learning_rate,
             weight_decay=getattr(self.config, 'weight_decay', 0.01),
         )
@@ -576,7 +576,7 @@ class StepLevelCoTTrainer:
         from .prm import PRMTrainer
         prm_trainer = PRMTrainer(
             model=self.prm,
-            learning_rate=learning_rate,
             weight_decay=getattr(self.config, 'weight_decay', 0.01),
             warmup_steps=getattr(self.config, 'warmup_steps', 500),
         )

         # Setup optimizer
         optimizer = torch.optim.AdamW(
             self.model.parameters(),
+            lr=float(learning_rate),
             weight_decay=getattr(self.config, 'weight_decay', 0.01),
         )
         from .prm import PRMTrainer
         prm_trainer = PRMTrainer(
             model=self.prm,
+            learning_rate=float(learning_rate),
             weight_decay=getattr(self.config, 'weight_decay', 0.01),
             warmup_steps=getattr(self.config, 'warmup_steps', 500),
         )