[grpo] fix log std_zero (#5813)

hjh0119 · Jintao-Huang · commit 269f43f539c9 · 2025-09-15T23:41:24.000+08:00
* fix log std0

* fix log std
diff --git a/swift/trainers/rlhf_trainer/grpo_trainer.py b/swift/trainers/rlhf_trainer/grpo_trainer.py
@@ -984,7 +984,7 @@ def log_rewards_metrics(rewards: torch.Tensor, rewards_per_func_for_metrics: tor
             group_rewards = rewards.view(-1, self.num_generations)
             rewards_mean = group_rewards.mean(-1).mean().item()
             rewards_std = group_rewards.std(-1).mean().item()
-            is_std_zero = torch.isclose(rewards.std(dim=0), torch.zeros_like(rewards.std(dim=0)))
+            is_std_zero = torch.isclose(group_rewards.std(dim=1), torch.zeros_like(group_rewards.std(dim=1)))
 
             self._metrics[mode]['reward'].append(rewards_mean)
             self._metrics[mode]['reward_std'].append(rewards_std)