[bugfix] Fix aux loss & (gradient_accumulation_steps & loss_scale) (#5823)

Jintao-Huang · Jintao-Huang · commit 8ec599ee9f3b · 2025-09-15T23:41:40.000+08:00
diff --git a/swift/trainers/trainers.py b/swift/trainers/trainers.py
@@ -402,6 +402,8 @@ def compute_loss(self, model, inputs, return_outputs=False, num_items_in_batch=N
             if self.model.model_info.is_moe_model and self.args.router_aux_loss_coef is not None:
                 aux_loss = outputs.get('aux_loss')
                 if aux_loss is not None:
+                    if num_items_in_batch is not None:
+                        aux_loss = aux_loss * ((labels[:, 1:] != -100).sum() / num_items_in_batch)
                     loss = loss + self.args.router_aux_loss_coef * aux_loss.to(loss.device)
 
         if self.template.sequence_parallel_size > 1: