diff --git a/diff_output.txt b/diff_output.txt
new file mode 100644
index 000000000..cd88a030b
--- /dev/null
+++ b/diff_output.txt
@@ -0,0 +1,2207 @@
+diff --git a/lzero/entry/train_unizero_multitask_segment_ddp.py b/lzero/entry/train_unizero_multitask_segment_ddp.py
+index 74d2de0..5e913af 100644
+--- a/lzero/entry/train_unizero_multitask_segment_ddp.py
++++ b/lzero/entry/train_unizero_multitask_segment_ddp.py
+@@ -19,7 +19,10 @@ try:
+ except ImportError:
+     LineProfiler = None
+ 
+-from lzero.entry.utils import log_buffer_memory_usage, TemperatureScheduler
++from lzero.entry.utils import (
++    log_buffer_memory_usage, TemperatureScheduler,
++    collect_and_log_moe_statistics, collect_and_log_divergences_with_heatmaps
++)
+ from lzero.policy import visit_count_temperature
+ from lzero.worker import MuZeroEvaluator as Evaluator
+ from lzero.worker import MuZeroSegmentCollector as Collector
+@@ -439,6 +442,11 @@ def collect_and_log_moe_statistics(policy, tb_logger, train_iter, world_size, ra
+         # 记录总体MOE使用情况
+         tb_logger.add_scalar('MOE_Global/ActiveTasks', len(merged_stats), global_step=train_iter)
+         
++        # Step 6: 新增分布差异计算和记录（包含去对角线热力图）
++        if any('immediate' in task_stats for task_stats in merged_stats.values()):
++            print(f"Rank {rank}: 开始计算任务间分布差异...")
++            collect_and_log_divergences_with_heatmaps(tb_logger, merged_stats, train_iter)
++        
+         print(f"Rank {rank}: MOE统计记录完成，train_iter={train_iter}")
+     
+     except Exception as e:
+@@ -447,6 +455,388 @@ def collect_and_log_moe_statistics(policy, tb_logger, train_iter, world_size, ra
+         traceback.print_exc()
+ 
+ import concurrent.futures
++
++# ====== GPU优化的分布差异计算和可视化函数 ======
++def jensen_shannon_divergence_batch_gpu(distributions_tensor):
++    """
++    GPU批量计算JS散度矩阵 - 完全向量化，无循环
++    
++    Args:
++        distributions_tensor: shape (n_tasks, n_experts), GPU张量
++    
++    Returns:
++        js_matrix: shape (n_tasks, n_tasks), 对称矩阵
++    """
++    device = distributions_tensor.device
++    n_tasks, n_experts = distributions_tensor.shape
++    
++    # 1. 归一化为概率分布
++    eps = 1e-8
++    distributions_tensor = distributions_tensor / (distributions_tensor.sum(dim=1, keepdim=True) + eps)
++    
++    # 2. 使用广播计算所有任务对的平均分布
++    # P_i: (n_tasks, 1, n_experts), P_j: (1, n_tasks, n_experts)
++    P_i = distributions_tensor.unsqueeze(1)  
++    P_j = distributions_tensor.unsqueeze(0)  
++    M = 0.5 * (P_i + P_j)  # shape: (n_tasks, n_tasks, n_experts)
++    
++    # 3. 批量计算KL散度 - 完全向量化
++    # KL(P_i || M) for all pairs
++    log_ratio_i = torch.log((P_i + eps) / (M + eps))
++    kl_i_m = torch.sum(P_i * log_ratio_i, dim=2)  # (n_tasks, n_tasks)
++    
++    # KL(P_j || M) for all pairs  
++    log_ratio_j = torch.log((P_j + eps) / (M + eps))
++    kl_j_m = torch.sum(P_j * log_ratio_j, dim=2)  # (n_tasks, n_tasks)
++    
++    # 4. JS散度矩阵
++    js_matrix = 0.5 * (kl_i_m + kl_j_m)
++    
++    return js_matrix
++
++
++def wasserstein_distance_batch_gpu(distributions_tensor):
++    """
++    GPU批量计算Wasserstein距离矩阵 - 1D分布的高效实现
++    
++    Args:
++        distributions_tensor: shape (n_tasks, n_experts), GPU张量
++    
++    Returns:
++        wasserstein_matrix: shape (n_tasks, n_tasks), 对称矩阵
++    """
++    device = distributions_tensor.device
++    n_tasks, n_experts = distributions_tensor.shape
++    eps = 1e-8
++    
++    # 1. 归一化为概率分布
++    distributions_tensor = distributions_tensor / (distributions_tensor.sum(dim=1, keepdim=True) + eps)
++    
++    # 2. 计算累积分布函数 (CDF)
++    cdf_tensor = torch.cumsum(distributions_tensor, dim=1)  # (n_tasks, n_experts)
++    
++    # 3. 使用广播计算所有CDF对之间的L1距离
++    cdf_i = cdf_tensor.unsqueeze(1)  # (n_tasks, 1, n_experts)
++    cdf_j = cdf_tensor.unsqueeze(0)  # (1, n_tasks, n_experts)
++    
++    # Wasserstein距离 = 累积分布差异的L1范数
++    wasserstein_matrix = torch.sum(torch.abs(cdf_i - cdf_j), dim=2)
++    
++    return wasserstein_matrix
++
++
++def compute_distribution_divergences_optimized(merged_stats, window_type='immediate'):
++    """
++    GPU优化版本 - 高效分布差异计算
++    """
++    # 1. 数据预处理
++    valid_tasks = [(tid, stats[window_type]['frequencies']) 
++                  for tid, stats in merged_stats.items() 
++                  if window_type in stats]
++    
++    if len(valid_tasks) < 2:
++        return {}
++    
++    task_ids, frequencies_list = zip(*valid_tasks)
++    
++    # 2. 高效张量转换
++    try:
++        if isinstance(frequencies_list[0], torch.Tensor):
++            frequencies_tensor = torch.stack(frequencies_list)
++        else:
++            frequencies_tensor = torch.tensor(
++                np.array(frequencies_list), 
++                dtype=torch.float32
++            )
++        
++        # 自动GPU加速
++        if torch.cuda.is_available():
++            frequencies_tensor = frequencies_tensor.cuda()
++            
++    except Exception as e:
++        print(f"GPU转换失败，使用CPU: {e}")
++        frequencies_tensor = torch.tensor(np.array(frequencies_list), dtype=torch.float32)
++    
++    device = frequencies_tensor.device
++    n_tasks, n_experts = frequencies_tensor.shape
++    
++    # 3. GPU批量计算（无循环）
++    with torch.no_grad():
++        # 批量计算JS散度和Wasserstein距离
++        js_matrix = jensen_shannon_divergence_batch_gpu(frequencies_tensor)
++        wasserstein_matrix = wasserstein_distance_batch_gpu(frequencies_tensor)
++        
++        # 高效提取上三角值（避免重复计算）
++        triu_indices = torch.triu_indices(n_tasks, n_tasks, offset=1, device=device)
++        js_values = js_matrix[triu_indices[0], triu_indices[1]]
++        wasserstein_values = wasserstein_matrix[triu_indices[0], triu_indices[1]]
++        
++        # 统计计算（向量化）
++        js_stats = {
++            'avg': torch.mean(js_values).item(),
++            'max': torch.max(js_values).item(),
++            'min': torch.min(js_values).item(),
++            'std': torch.std(js_values).item()
++        }
++        
++        wasserstein_stats = {
++            'avg': torch.mean(wasserstein_values).item(),
++            'max': torch.max(wasserstein_values).item(), 
++            'min': torch.min(wasserstein_values).item(),
++            'std': torch.std(wasserstein_values).item()
++        }
++    
++    return {
++        'task_ids': task_ids,
++        'n_tasks': n_tasks,
++        'n_experts': n_experts,
++        'device': str(device),
++        'gpu_accelerated': 'cuda' in str(device),
++        
++        # 返回CPU版本用于记录
++        'js_matrix': js_matrix.cpu().numpy(),
++        'wasserstein_matrix': wasserstein_matrix.cpu().numpy(),
++        'js_stats': js_stats,
++        'wasserstein_stats': wasserstein_stats
++    }
++
++
++def create_similarity_heatmap_no_diagonal(similarity_matrix, task_ids, metric_name, title_suffix=""):
++    """
++    创建任务相似度热力图 - 去掉对角线部分
++    
++    Args:
++        similarity_matrix: 相似度矩阵 (n_tasks, n_tasks)
++        task_ids: 任务ID列表
++        metric_name: 指标名称 ('js_divergence', 'wasserstein_distance')
++        title_suffix: 标题后缀
++    """
++    try:
++        # 复制矩阵避免修改原数据
++        matrix = similarity_matrix.copy()
++        
++        # 将对角线设置为NaN，这样matplotlib会显示为空白
++        np.fill_diagonal(matrix, np.nan)
++        
++        figsize = (max(6, len(task_ids)), max(4, len(task_ids)))
++        fig, ax = plt.subplots(figsize=figsize)  # 创建新figure避免复用问题
++        
++        # 根据指标类型选择颜色映射
++        if 'js' in metric_name.lower():
++            cmap = 'Reds'
++            title_name = 'JS Divergence'
++            vmin, vmax = 0, 1.0
++        else:  # wasserstein
++            cmap = 'Blues'  
++            title_name = 'Wasserstein Distance'
++            vmin, vmax = None, None  # 自适应
++        
++        # 使用masked数组处理NaN值，对角线显示为白色
++        masked_matrix = np.ma.masked_invalid(matrix)
++        im = ax.imshow(masked_matrix, cmap=cmap, vmin=vmin, vmax=vmax, aspect='auto')
++        
++        # 添加数值标注（跳过对角线）
++        if len(task_ids) <= 15:  # 只在任务数较少时添加标注
++            for i in range(len(task_ids)):
++                for j in range(len(task_ids)):
++                    if i != j:  # 跳过对角线
++                        value = matrix[i, j]
++                        if not np.isnan(value):
++                            threshold = (vmax or np.nanmax(matrix)) * 0.5 if vmax else np.nanmax(matrix) * 0.5
++                            color = 'white' if value > threshold else 'black'
++                            ax.text(j, i, f'{value:.3f}', ha='center', va='center', 
++                                   color=color, fontsize=8)
++        
++        # 设置标签
++        ax.set_xticks(range(len(task_ids)))
++        ax.set_yticks(range(len(task_ids)))
++        ax.set_xticklabels([f'T{tid}' for tid in task_ids], fontsize=9)
++        ax.set_yticklabels([f'T{tid}' for tid in task_ids], fontsize=9)
++        ax.set_title(f'Task {title_name} Matrix {title_suffix} (No Diagonal)', fontsize=12)
++        ax.set_xlabel('Tasks', fontsize=10)
++        ax.set_ylabel('Tasks', fontsize=10)
++        
++        # 添加colorbar
++        plt.colorbar(im, ax=ax, label=title_name, shrink=0.8)
++        
++        # 转换为图像数组 - 修复matplotlib版本兼容性
++        fig.canvas.draw()
++        
++        try:
++            # 新版matplotlib使用buffer_rgba
++            if hasattr(fig.canvas, 'buffer_rgba'):
++                buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
++                h, w = fig.canvas.get_width_height()
++                img_array = buf.reshape(h, w, 4)[:, :, :3]  # 去掉alpha通道
++            else:
++                # 旧版matplotlib回退方案
++                buf = fig.canvas.print_to_string()
++                img_array = np.frombuffer(buf, dtype=np.uint8)
++                h, w = fig.canvas.get_width_height()
++                img_array = img_array.reshape(h, w, 3)
++        except Exception as conv_e:
++            print(f"图像转换方法失败: {conv_e}, 尝试PIL方案")
++            # 最终回退：通过PIL转换
++            from io import BytesIO
++            buf = BytesIO()
++            fig.savefig(buf, format='png', dpi=100, bbox_inches='tight')
++            buf.seek(0)
++            from PIL import Image
++            img = Image.open(buf)
++            img_array = np.array(img)[:, :, :3]  # 去掉alpha通道
++            buf.close()
++        
++        img_array = img_array.transpose(2, 0, 1)  # CHW格式
++        plt.close(fig)  # 关闭figure避免内存泄漏
++        
++        return img_array
++        
++    except Exception as e:
++        print(f"Warning: 无对角线热力图生成失败: {e}")
++        return np.zeros((3, 100, 100), dtype=np.uint8)
++
++
++def log_pairwise_optimized(tb_logger, divergence_data, train_iter):
++    """
++    优化的任务对记录 - 批量处理
++    """
++    task_ids = divergence_data['task_ids']
++    js_matrix = divergence_data['js_matrix']
++    wasserstein_matrix = divergence_data['wasserstein_matrix']
++    
++    # 批量构建任务对指标字典
++    pairwise_scalars = {}
++    
++    for i, task_i in enumerate(task_ids):
++        for j, task_j in enumerate(task_ids):
++            if i < j:  # 只记录上三角
++                # 构建指标名称
++                js_key = f'TaskPairwise/Immediate_Task{task_i}_Task{task_j}_JS_Divergence'
++                wass_key = f'TaskPairwise/Immediate_Task{task_i}_Task{task_j}_Wasserstein_Distance'
++                
++                pairwise_scalars[js_key] = js_matrix[i, j]
++                pairwise_scalars[wass_key] = wasserstein_matrix[i, j]
++    
++    # 批量写入TensorBoard
++    for key, value in pairwise_scalars.items():
++        tb_logger.add_scalar(key, float(value), global_step=train_iter)
++
++
++def log_divergences_with_heatmaps(tb_logger, divergence_data, train_iter):
++    """
++    记录分布差异指标和热力图（去掉对角线）
++    """
++    if not divergence_data:
++        return
++    
++    js_stats = divergence_data['js_stats']
++    wasserstein_stats = divergence_data['wasserstein_stats']
++    task_ids = divergence_data['task_ids']
++    n_tasks = divergence_data['n_tasks']
++    
++    # 调试：检查矩阵数据
++    js_matrix = divergence_data['js_matrix']
++    wasserstein_matrix = divergence_data['wasserstein_matrix']
++    print(f"DEBUG: JS矩阵形状={js_matrix.shape}, 范围=[{np.min(js_matrix):.6f}, {np.max(js_matrix):.6f}]")
++    print(f"DEBUG: Wasserstein矩阵形状={wasserstein_matrix.shape}, 范围=[{np.min(wasserstein_matrix):.6f}, {np.max(wasserstein_matrix):.6f}]")
++    
++    # 1. 记录标量指标
++    scalar_dict = {
++        'MOE_Divergence/Immediate_AvgJS_Divergence': js_stats['avg'],
++        'MOE_Divergence/Immediate_MaxJS_Divergence': js_stats['max'],
++        'MOE_Divergence/Immediate_AvgWasserstein_Distance': wasserstein_stats['avg'],
++        'MOE_Divergence/Immediate_MaxWasserstein_Distance': wasserstein_stats['max'],
++    }
++    
++    for key, value in scalar_dict.items():
++        tb_logger.add_scalar(key, value, global_step=train_iter)
++    
++    # 1.1 打印核心指标到控制台
++    print("=" * 65)
++    print(f" 任务间分布差异统计 (Iteration: {train_iter})")
++    print("=" * 65)
++    print(f"参与任务数量: {n_tasks} | 任务ID: {list(task_ids)}")
++    print(f"计算设备: {divergence_data.get('device', 'Unknown')} | GPU加速: {'启用' if divergence_data.get('gpu_accelerated', False) else '禁用'}")
++    print("-" * 65)
++    print("JS散度 (Jensen-Shannon Divergence):")
++    print(f"  平均值: {js_stats['avg']:.6f}  |  最大值: {js_stats['max']:.6f}")
++    print(f"  最小值: {js_stats['min']:.6f}  |  标准差: {js_stats['std']:.6f}")
++    print("-" * 65)
++    print("Wasserstein距离:")
++    print(f"  平均值: {wasserstein_stats['avg']:.6f}  |  最大值: {wasserstein_stats['max']:.6f}")
++    print(f"  最小值: {wasserstein_stats['min']:.6f}  |  标准差: {wasserstein_stats['std']:.6f}")
++    print("=" * 65)
++    
++    # 2. 记录去掉对角线的相似度矩阵热力图
++    task_ids = divergence_data['task_ids']
++    n_tasks = divergence_data['n_tasks']
++    
++    if n_tasks <= 25:  # 限制矩阵大小避免过大热力图
++        try:
++            # JS散度矩阵热力图（无对角线）
++            js_heatmap = create_similarity_heatmap_no_diagonal(
++                divergence_data['js_matrix'], 
++                task_ids, 
++                'js_divergence',
++                f'(Immediate-{n_tasks} tasks)'
++            )
++            tb_logger.add_image(
++                'TaskSimilarity/Immediate_JS_Matrix_NoDiagonal',
++                js_heatmap,
++                global_step=train_iter,
++                dataformats='CHW'
++            )
++            
++            # Wasserstein距离矩阵热力图（无对角线）
++            wass_heatmap = create_similarity_heatmap_no_diagonal(
++                divergence_data['wasserstein_matrix'], 
++                task_ids, 
++                'wasserstein_distance',
++                f'(Immediate-{n_tasks} tasks)'
++            )
++            tb_logger.add_image(
++                'TaskSimilarity/Immediate_Wasserstein_Matrix_NoDiagonal',
++                wass_heatmap,
++                global_step=train_iter,
++                dataformats='CHW'
++            )
++            
++        except Exception as e:
++            print(f"Warning: 相似度矩阵热力图生成失败: {e}")
++    
++    # 3. 记录任务对指标（可选）
++    if n_tasks <= 20:
++        log_pairwise_optimized(tb_logger, divergence_data, train_iter)
++
++
++def collect_and_log_divergences_with_heatmaps(tb_logger, merged_stats, train_iter):
++    """
++    完整的分布差异计算和记录（包含无对角线热力图）
++    """
++    try:
++        # GPU优化计算
++        divergence_data = compute_distribution_divergences_optimized(merged_stats, 'immediate')
++        
++        if not divergence_data:
++            print(f"跳过分布差异计算 - 任务数不足 (需要>=2个任务)")
++            return
++        
++        # 记录指标和热力图
++        log_divergences_with_heatmaps(tb_logger, divergence_data, train_iter)
++        
++        # 汇总打印
++        print(f">> 分布差异统计已完成并记录到TensorBoard")
++        if divergence_data.get('n_tasks', 0) <= 25:
++            print(f">> 相似度矩阵热力图已生成 (去除对角线)")
++        if divergence_data.get('n_tasks', 0) <= 20:
++            print(f">> 任务对详细指标已记录")
++        print()  # 空行分隔
++        
++    except Exception as e:
++        print(f"ERROR: 分布差异计算失败 - {e}")
++        import traceback
++        traceback.print_exc()
++
+ # ====== UniZero-MT 归一化所需基准分数 (26 Atari100k task_id 对应索引) ======
+ # 原始的 RANDOM_SCORES 和 HUMAN_SCORES
+ 
+@@ -1245,12 +1635,19 @@ def train_unizero_multitask_segment_ddp(
+                     
+                     # +++++++++++++++++++++++++++++++++ MOE专家选择统计记录 +++++++++++++++++++++++++++++++++
+                     if cfg.policy.model.world_model_cfg.multiplication_moe_in_transformer:
+-                        # 性能监控开始
+-                        if cal_moe_profile:
+-                            import time
+-                            moe_start_time = time.perf_counter()
++                        # 控制MoE统计记录频率
++                        moe_log_interval = getattr(cfg.policy, 'moe_log_interval', 500)  # 默认每500个iter记录一次
+                         
+-                        collect_and_log_moe_statistics(policy, tb_logger, learner.train_iter, world_size, rank)
++                        if learner.train_iter % moe_log_interval == 0:
++                            # # 性能监控开始
++                            # if cal_moe_profile:
++                            #     import time
++                            #     moe_start_time = time.perf_counter()
++                            
++                            collect_and_log_moe_statistics(policy, tb_logger, learner.train_iter, world_size, rank)
++                            
++                            if rank == 0:  # 只在rank 0打印日志
++                                print(f"MoE统计已记录 (train_iter={learner.train_iter})")
+                         
+                         # global a
+                         # a+=1
+diff --git a/lzero/entry/utils.py b/lzero/entry/utils.py
+index b51eb7f..3ccec94 100644
+--- a/lzero/entry/utils.py
++++ b/lzero/entry/utils.py
+@@ -1,4 +1,5 @@
+ import os
++import time
+ from typing import Optional, Callable, Union, List, Tuple
+ 
+ import psutil
+@@ -362,3 +363,841 @@ def log_buffer_run_time(train_iter: int, buffer: "GameBuffer", writer: SummaryWr
+ 
+         # Reset the time records in the buffer.
+         buffer.reset_runtime_metrics()
++
++
++# ==================== MoE TensorBoard 记录模块 =============================
++# 导入必要的模块
++import seaborn as sns
++from io import BytesIO
++from PIL import Image
++import concurrent.futures
++
++# 全局图像缓存，避免重复创建 figure
++_GLOBAL_HEATMAP_FIG = None
++_GLOBAL_HEATMAP_AX = None
++
++def _get_or_create_heatmap_figure(figsize):
++    """获取或创建复用的 heatmap figure"""
++    global _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX
++    if _GLOBAL_HEATMAP_FIG is None:
++        _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX = plt.subplots(figsize=figsize)
++    else:
++        # 清除之前的内容
++        _GLOBAL_HEATMAP_AX.clear()
++        # 调整图像大小
++        _GLOBAL_HEATMAP_FIG.set_size_inches(figsize)
++    return _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX
++
++def create_heatmap_with_values_fast(matrix, task_ids, title="Task-Expert Selection Frequencies"):
++    """
++    高效创建带数值标注的蓝色系热力图 - 优化版本
++    
++    优化点:
++    1. 复用 matplotlib figure，减少内存分配
++    2. 大矩阵跳过数值标注，避免性能损失
++    3. 优化图像转换流程
++    4. 使用更低的 DPI 减少计算量
++    """
++    try:
++        figsize = (max(6, matrix.shape[1]), max(4, matrix.shape[0]))
++        fig, ax = _get_or_create_heatmap_figure(figsize)
++        
++        # 智能选择是否显示数值标注
++        show_annot = matrix.size <= 64  # 只在 8x8 或更小时显示数值
++        
++        # 使用 matplotlib 直接绘制，避免 seaborn 的额外开销
++        im = ax.imshow(matrix, cmap='Blues', aspect='auto')
++        
++        # 有选择性地添加数值标注
++        if show_annot:
++            for i in range(matrix.shape[0]):
++                for j in range(matrix.shape[1]):
++                    value = matrix[i, j]
++                    color = 'white' if value > 0.5 else 'black'
++                    ax.text(j, i, f'{value:.3f}', ha='center', va='center', 
++                           color=color, fontsize=8)
++        
++        # 设置标签和标题
++        ax.set_xticks(range(matrix.shape[1]))
++        ax.set_yticks(range(matrix.shape[0]))
++        ax.set_xticklabels([f'E{i}' for i in range(matrix.shape[1])], fontsize=10)
++        ax.set_yticklabels([f'T{tid}' for tid in task_ids], fontsize=10)
++        ax.set_title(title, fontsize=12, pad=15)
++        ax.set_xlabel('Experts', fontsize=10)
++        ax.set_ylabel('Tasks', fontsize=10)
++        
++        # 简化的 colorbar
++        if not hasattr(fig, '_colorbar_created'):
++            plt.colorbar(im, ax=ax, label='Frequency')
++            fig._colorbar_created = True
++        
++        # 优化的图像转换：使用更低 DPI 和简化流程
++        fig.canvas.draw()
++        try:
++            # 直接从 canvas 获取 RGB 数据
++            if hasattr(fig.canvas, 'buffer_rgba'):
++                buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
++                buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (4,))
++                img_array = buf[:, :, :3]  # 去掉 alpha 通道
++            else:
++                buf = np.frombuffer(fig.canvas.tostring_rgb(), dtype=np.uint8)
++                img_array = buf.reshape(fig.canvas.get_width_height()[::-1] + (3,))
++            
++            # 转换为 CHW 格式
++            img_array = img_array.transpose(2, 0, 1)
++            
++        except Exception:
++            # 回退方案：创建简单的蓝色渠度矩阵
++            h, w = matrix.shape
++            img_array = np.zeros((3, h*20, w*20), dtype=np.uint8)
++            # 简单放大矩阵并映射到蓝色通道
++            matrix_resized = np.repeat(np.repeat(matrix, 20, axis=0), 20, axis=1)
++            img_array[2] = (matrix_resized * 255).astype(np.uint8)
++        
++        return img_array
++        
++    except Exception as e:
++        print(f"Warning: 热力图生成失败: {e}, 使用回退方案")
++        # 终极回退：返回空白图像
++        return np.zeros((3, 100, 100), dtype=np.uint8)
++
++def create_heatmap_with_values(matrix, task_ids, title="Task-Expert Selection Frequencies"):
++    """创建带数值标注的蓝色系热力图 - 原始版本（回退用）"""
++    fig, ax = plt.subplots(figsize=(max(8, matrix.shape[1]), max(6, matrix.shape[0])))
++    
++    # 使用蓝色系颜色映射
++    sns.heatmap(matrix, 
++                annot=True,  # 显示数值
++                fmt='.3f',   # 数值格式
++                cmap='Blues',  # 蓝色系
++                ax=ax,
++                cbar_kws={'label': 'Selection Frequency'},
++                xticklabels=[f'Expert{i}' for i in range(matrix.shape[1])],
++                yticklabels=[f'Task{tid}' for tid in task_ids])
++    
++    ax.set_title(title, fontsize=14, pad=20)
++    ax.set_xlabel('Experts', fontsize=12)
++    ax.set_ylabel('Tasks', fontsize=12)
++    
++    plt.tight_layout()
++    
++    # 保存到BytesIO
++    buf = BytesIO()
++    plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
++    buf.seek(0)
++    
++    # 转换为numpy数组用于tensorboard
++    img = Image.open(buf)
++    img_array = np.array(img)
++    buf.close()
++    plt.close(fig)
++    
++    # 转换为CHW格式 (Channel, Height, Width)
++    if len(img_array.shape) == 3:
++        img_array = img_array.transpose(2, 0, 1)
++    
++    return img_array
++
++def log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter):
++    """记录每个任务的详细专家选择统计"""
++    for i, task_id in enumerate(valid_task_ids):
++        frequencies = matrix[i]
++        stats = merged_stats[task_id][window_type]
++        
++        # 计算并记录该任务选择专家的熵（均匀性指标）
++        task_frequencies = np.array(frequencies)
++        task_frequencies = task_frequencies + 1e-8  # 避免log(0)
++        task_entropy = -np.sum(task_frequencies * np.log(task_frequencies))
++        tb_logger.add_scalar(
++            f'MOE_Details/Task{task_id}_{window_type}/ExpertSelectionEntropy',
++            task_entropy, global_step=train_iter
++        )
++        
++        # 记录该任务专家选择的方差（分散程度）
++        expert_variance = np.var(task_frequencies)
++        tb_logger.add_scalar(
++            f'MOE_Details/Task{task_id}_{window_type}/ExpertSelectionVariance',
++            expert_variance, global_step=train_iter
++        )
++        
++        # 记录任务级别的汇总统计
++        tb_logger.add_scalar(
++            f'MOE_Details/Task{task_id}_{window_type}/TotalSelections',
++            stats['total_selections'], global_step=train_iter
++        )
++        tb_logger.add_scalar(
++            f'MOE_Details/Task{task_id}_{window_type}/DataPoints',
++            stats['data_points'], global_step=train_iter
++        )
++
++def log_global_moe_statistics(tb_logger, matrix, window_type, valid_task_ids, train_iter):
++    """记录全局MOE统计信息"""
++    # 记录基本信息
++    tb_logger.add_scalar(
++        f'MOE_Global/{window_type}/NumActiveTasks',
++        len(valid_task_ids), global_step=train_iter
++    )
++    tb_logger.add_scalar(
++        f'MOE_Global/{window_type}/NumExperts', 
++        matrix.shape[1], global_step=train_iter
++    )
++    
++    # 计算专家使用均匀性
++    expert_avg_usage = np.mean(matrix, axis=0)  # 每个专家的平均使用频率
++    usage_entropy = -np.sum(expert_avg_usage * np.log(expert_avg_usage + 1e-8))
++    tb_logger.add_scalar(
++        f'MOE_Global/{window_type}/ExpertUsageEntropy',
++        usage_entropy, global_step=train_iter
++    )
++    
++    # 记录最常用和最少用的专家
++    most_used_expert = np.argmax(expert_avg_usage)
++    least_used_expert = np.argmin(expert_avg_usage)
++    tb_logger.add_scalar(
++        f'MOE_Global/{window_type}/MostUsedExpert',
++        most_used_expert, global_step=train_iter
++    )
++    tb_logger.add_scalar(
++        f'MOE_Global/{window_type}/LeastUsedExpert', 
++        least_used_expert, global_step=train_iter
++    )
++
++def process_and_log_moe_heatmaps_fast(tb_logger, merged_stats, window_type, train_iter):
++    """
++    高效处理和记录MOE热力图 - 优化版本
++    
++    优化点:
++    1. 向量化数据处理，减少循环
++    2. 使用高效的热力图生成函数
++    3. 条件性热力图生成
++    4. 批量处理统计数据
++    """
++    # 快速筛选有效任务
++    valid_task_data = [(tid, stats[window_type]['frequencies']) 
++                      for tid, stats in merged_stats.items() 
++                      if window_type in stats]
++    
++    if not valid_task_data:
++        return
++    
++    # 向量化构建矩阵
++    valid_task_ids, frequencies_list = zip(*valid_task_data)
++    matrix = np.array(frequencies_list)
++    
++    # 条件性热力图生成：小矩阵才生成热力图
++    if matrix.size <= 200:  # 只有在任务数*专家数 <= 200时才生成热力图
++        try:
++            heatmap_img = create_heatmap_with_values_fast(
++                matrix, valid_task_ids, 
++                f'MOE {window_type} Task-Expert Selection'
++            )
++            
++            # 记录热力图到tensorboard
++            tb_logger.add_image(
++                f'MOE_Heatmap/{window_type}_TaskExpert_Heatmap',
++                heatmap_img,
++                global_step=train_iter,
++                dataformats='CHW'
++            )
++        except Exception as e:
++            print(f"Warning: 热力图生成失败: {e}")
++    
++    # 始终记录统计数据（轻量级操作）
++    log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter)
++    log_global_moe_statistics(tb_logger, matrix, window_type, valid_task_ids, train_iter)
++
++def process_and_log_moe_heatmaps(tb_logger, merged_stats, window_type, train_iter):
++    """处理和记录MOE热力图 - 原始版本（回退用）"""
++    all_task_ids = sorted(merged_stats.keys())
++    task_expert_matrix = []
++    valid_task_ids = []
++    
++    # 收集有效任务的频率数据
++    for task_id in all_task_ids:
++        if window_type in merged_stats[task_id]:
++            frequencies = merged_stats[task_id][window_type]['frequencies']
++            task_expert_matrix.append(frequencies)
++            valid_task_ids.append(task_id)
++    
++    if not task_expert_matrix:
++        return
++    
++    # 转换为numpy矩阵 (num_tasks, num_experts)
++    matrix = np.array(task_expert_matrix)
++    
++    # 创建带数值标注的蓝色系热力图
++    heatmap_img = create_heatmap_with_values(
++        matrix, valid_task_ids, 
++        f'MOE {window_type} Task-Expert Selection Frequencies'
++    )
++    
++    # 记录热力图到tensorboard
++    tb_logger.add_image(
++        f'MOE_Heatmap/{window_type}_TaskExpert_Heatmap',
++        heatmap_img,
++        global_step=train_iter,
++        dataformats='CHW'
++    )
++    
++    # 记录详细统计和全局统计
++    log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter)
++
++def convert_stats_to_serializable(moe_stats):
++    """将MOE统计数据中的tensor转换为可序列化的numpy格式"""
++    if not moe_stats:
++        return {}
++    
++    converted = {}
++    for task_id, task_stats in moe_stats.items():
++        converted[task_id] = {}
++        for window_type, stats in task_stats.items():
++            if stats and 'frequencies' in stats:
++                converted[task_id][window_type] = {
++                    'frequencies': stats['frequencies'].cpu().numpy().tolist(),
++                    'total_selections': stats['total_selections'],
++                    'data_points': stats['data_points']
++                }
++    return converted
++
++def gather_distributed_moe_stats(local_stats, world_size):
++    """在分布式训练中收集和合并MOE统计数据"""
++    if world_size == 1:
++        return local_stats
++    
++    # 将本地统计转换为可序列化格式后进行分布式收集
++    serializable_stats = convert_stats_to_serializable(local_stats)
++    return serializable_stats
++
++def collect_and_log_moe_statistics(policy, tb_logger, train_iter, world_size, rank):
++    """
++    收集和记录MOE统计信息 - 主要入口函数
++    
++    优化版本，增加了异常处理和性能监控
++    """
++    try:
++        # 从policy收集本地MOE统计
++        local_stats = {}
++        if hasattr(policy, '_learn_model') and hasattr(policy._learn_model, 'world_model'):
++            world_model = policy._learn_model.world_model
++            
++            # 检查是否有transformer和MoE层
++            if hasattr(world_model, 'transformer'):
++                transformer = world_model.transformer
++                if hasattr(transformer, 'moe_layers') and transformer.moe_layers:
++                    # 只从最后一个MoE层收集统计（性能优化）
++                    last_moe_layer = transformer.moe_layers[-1]
++                    if hasattr(last_moe_layer, 'get_expert_selection_stats'):
++                        local_stats = last_moe_layer.get_expert_selection_stats()
++        
++        # 分布式收集统计（简化版本）
++        merged_stats = gather_distributed_moe_stats(local_stats, world_size)
++        
++        # 只在rank 0记录到TensorBoard
++        if rank == 0 and tb_logger and merged_stats:
++            # 处理不同时间窗口的统计
++            for window_type in ['immediate', 'short', 'medium', 'long']:
++                # 检查是否有有效数据
++                has_data = any(window_type in task_stats for task_stats in merged_stats.values())
++                if has_data:
++                    # 使用优化版本的热力图处理
++                    process_and_log_moe_heatmaps_fast(tb_logger, merged_stats, window_type, train_iter)
++    
++    except Exception as e:
++        print(f"Rank {rank}: MOE统计收集失败 - {e}, train_iter={train_iter}")
++        import traceback
++        traceback.print_exc()
++
++# ====== GPU优化的分布差异计算和可视化函数 ======
++def jensen_shannon_divergence_batch_gpu(distributions_tensor):
++    """
++    GPU批量计算JS散度矩阵 - 使用GPU优化器的内存池
++    
++    Args:
++        distributions_tensor: shape (n_tasks, n_experts), GPU张量
++    
++    Returns:
++        js_matrix: shape (n_tasks, n_tasks), 对称矩阵
++    """
++    # 使用GPU优化器提升性能
++    return get_gpu_optimizer().optimized_js_divergence(distributions_tensor)
++
++def wasserstein_distance_batch_gpu(distributions_tensor):
++    """
++    GPU批量计算Wasserstein距离矩阵 - 使用GPU优化器的内存池
++    
++    Args:
++        distributions_tensor: shape (n_tasks, n_experts), GPU张量
++    
++    Returns:
++        wasserstein_matrix: shape (n_tasks, n_tasks), 对称矩阵
++    """
++    # 使用GPU优化器提升性能
++    return get_gpu_optimizer().optimized_wasserstein(distributions_tensor)
++
++def compute_distribution_divergences_optimized(merged_stats, window_type='immediate'):
++    """
++    GPU优化版本 - 高效分布差异计算
++    """
++    # 1. 数据预处理
++    valid_tasks = [(tid, stats[window_type]['frequencies']) 
++                  for tid, stats in merged_stats.items() 
++                  if window_type in stats]
++    
++    if len(valid_tasks) < 2:
++        return {}
++    
++    task_ids, frequencies_list = zip(*valid_tasks)
++    
++    # 2. 高效张量转换
++    try:
++        if isinstance(frequencies_list[0], torch.Tensor):
++            frequencies_tensor = torch.stack(frequencies_list)
++        else:
++            frequencies_tensor = torch.tensor(
++                np.array(frequencies_list), 
++                dtype=torch.float32
++            )
++        
++        # 自动GPU加速
++        if torch.cuda.is_available():
++            frequencies_tensor = frequencies_tensor.cuda()
++            
++    except Exception as e:
++        print(f"GPU转换失败，使用CPU: {e}")
++        frequencies_tensor = torch.tensor(np.array(frequencies_list), dtype=torch.float32)
++    
++    device = frequencies_tensor.device
++    n_tasks, n_experts = frequencies_tensor.shape
++    
++    # 3. GPU批量计算（无循环）
++    with torch.no_grad():
++        # 批量计算JS散度和Wasserstein距离
++        js_matrix = jensen_shannon_divergence_batch_gpu(frequencies_tensor)
++        wasserstein_matrix = wasserstein_distance_batch_gpu(frequencies_tensor)
++        
++        # 高效提取上三角值（避免重复计算）
++        triu_indices = torch.triu_indices(n_tasks, n_tasks, offset=1, device=device)
++        js_values = js_matrix[triu_indices[0], triu_indices[1]]
++        wasserstein_values = wasserstein_matrix[triu_indices[0], triu_indices[1]]
++        
++        # 统计计算（向量化）
++        js_stats = {
++            'avg': torch.mean(js_values).item(),
++            'max': torch.max(js_values).item(),
++            'min': torch.min(js_values).item(),
++            'std': torch.std(js_values).item()
++        }
++        
++        wasserstein_stats = {
++            'avg': torch.mean(wasserstein_values).item(),
++            'max': torch.max(wasserstein_values).item(), 
++            'min': torch.min(wasserstein_values).item(),
++            'std': torch.std(wasserstein_values).item()
++        }
++    
++    return {
++        'task_ids': task_ids,
++        'n_tasks': n_tasks,
++        'n_experts': n_experts,
++        'device': str(device),
++        'gpu_accelerated': 'cuda' in str(device),
++        
++        # 返回CPU版本用于记录
++        'js_matrix': js_matrix.cpu().numpy(),
++        'wasserstein_matrix': wasserstein_matrix.cpu().numpy(),
++        'js_stats': js_stats,
++        'wasserstein_stats': wasserstein_stats
++    }
++
++def create_similarity_heatmap_no_diagonal(similarity_matrix, task_ids, metric_name, title_suffix=""):
++    """
++    创建任务相似度热力图 - 去掉对角线部分
++    
++    Args:
++        similarity_matrix: 相似度矩阵 (n_tasks, n_tasks)
++        task_ids: 任务ID列表
++        metric_name: 指标名称 ('js_divergence', 'wasserstein_distance')
++        title_suffix: 标题后缀
++    """
++    try:
++        # 复制矩阵避免修改原数据
++        matrix = similarity_matrix.copy()
++        
++        # 将对角线设置为NaN，这样matplotlib会显示为空白
++        np.fill_diagonal(matrix, np.nan)
++        
++        figsize = (max(6, len(task_ids)), max(4, len(task_ids)))
++        fig, ax = plt.subplots(figsize=figsize)  # 创建新figure避免复用问题
++        
++        # 根据指标类型选择颜色映射
++        if 'js' in metric_name.lower():
++            cmap = 'Reds'
++            title_name = 'JS Divergence'
++            vmin, vmax = 0, 1.0
++        else:  # wasserstein
++            cmap = 'Blues'  
++            title_name = 'Wasserstein Distance'
++            vmin, vmax = None, None  # 自适应
++        
++        # 使用masked数组处理NaN值，对角线显示为白色
++        masked_matrix = np.ma.masked_invalid(matrix)
++        im = ax.imshow(masked_matrix, cmap=cmap, vmin=vmin, vmax=vmax, aspect='auto')
++        
++        # 添加数值标注（跳过对角线）
++        if len(task_ids) <= 15:  # 只在任务数较少时添加标注
++            for i in range(len(task_ids)):
++                for j in range(len(task_ids)):
++                    if i != j:  # 跳过对角线
++                        value = matrix[i, j]
++                        if not np.isnan(value):
++                            threshold = (vmax or np.nanmax(matrix)) * 0.5 if vmax else np.nanmax(matrix) * 0.5
++                            color = 'white' if value > threshold else 'black'
++                            ax.text(j, i, f'{value:.3f}', ha='center', va='center', 
++                                   color=color, fontsize=8)
++        
++        # 设置标签
++        ax.set_xticks(range(len(task_ids)))
++        ax.set_yticks(range(len(task_ids)))
++        ax.set_xticklabels([f'T{tid}' for tid in task_ids], fontsize=9)
++        ax.set_yticklabels([f'T{tid}' for tid in task_ids], fontsize=9)
++        ax.set_title(f'Task {title_name} Matrix {title_suffix} (No Diagonal)', fontsize=12)
++        ax.set_xlabel('Tasks', fontsize=10)
++        ax.set_ylabel('Tasks', fontsize=10)
++        
++        # 添加colorbar
++        plt.colorbar(im, ax=ax, label=title_name, shrink=0.8)
++        
++        # 转换为图像数组 - 修复matplotlib版本兼容性
++        fig.canvas.draw()
++        
++        try:
++            # 新版matplotlib使用buffer_rgba
++            if hasattr(fig.canvas, 'buffer_rgba'):
++                buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
++                h, w = fig.canvas.get_width_height()
++                img_array = buf.reshape(h, w, 4)[:, :, :3]  # 去掉alpha通道
++            else:
++                # 旧版matplotlib回退方案
++                buf = fig.canvas.print_to_string()
++                img_array = np.frombuffer(buf, dtype=np.uint8)
++                h, w = fig.canvas.get_width_height()
++                img_array = img_array.reshape(h, w, 3)
++        except Exception as conv_e:
++            print(f"图像转换方法失败: {conv_e}, 尝试PIL方案")
++            # 最终回退：通过PIL转换
++            from io import BytesIO
++            buf = BytesIO()
++            fig.savefig(buf, format='png', dpi=100, bbox_inches='tight')
++            buf.seek(0)
++            from PIL import Image
++            img = Image.open(buf)
++            img_array = np.array(img)[:, :, :3]  # 去掉alpha通道
++            buf.close()
++        
++        img_array = img_array.transpose(2, 0, 1)  # CHW格式
++        plt.close(fig)  # 关闭figure避免内存泄漏
++        
++        return img_array
++        
++    except Exception as e:
++        print(f"Warning: 无对角线热力图生成失败: {e}")
++        return np.zeros((3, 100, 100), dtype=np.uint8)
++
++def log_pairwise_optimized(tb_logger, divergence_data, train_iter):
++    """
++    优化的任务对记录 - 批量处理
++    """
++    task_ids = divergence_data['task_ids']
++    js_matrix = divergence_data['js_matrix']
++    wasserstein_matrix = divergence_data['wasserstein_matrix']
++    
++    # 批量构建任务对指标字典
++    pairwise_scalars = {}
++    
++    for i, task_i in enumerate(task_ids):
++        for j, task_j in enumerate(task_ids):
++            if i < j:  # 只记录上三角
++                # 构建指标名称
++                js_key = f'TaskPairwise/Immediate_Task{task_i}_Task{task_j}_JS_Divergence'
++                wass_key = f'TaskPairwise/Immediate_Task{task_i}_Task{task_j}_Wasserstein_Distance'
++                
++                pairwise_scalars[js_key] = js_matrix[i, j]
++                pairwise_scalars[wass_key] = wasserstein_matrix[i, j]
++    
++    # 批量写入TensorBoard
++    for key, value in pairwise_scalars.items():
++        tb_logger.add_scalar(key, float(value), global_step=train_iter)
++
++def log_divergences_with_heatmaps(tb_logger, divergence_data, train_iter):
++    """
++    记录分布差异指标和热力图（去掉对角线）
++    """
++    if not divergence_data:
++        return
++    
++    js_stats = divergence_data['js_stats']
++    wasserstein_stats = divergence_data['wasserstein_stats']
++    task_ids = divergence_data['task_ids']
++    n_tasks = divergence_data['n_tasks']
++    
++    # 调试：检查矩阵数据
++    js_matrix = divergence_data['js_matrix']
++    wasserstein_matrix = divergence_data['wasserstein_matrix']
++    print(f"DEBUG: JS矩阵形状={js_matrix.shape}, 范围=[{np.min(js_matrix):.6f}, {np.max(js_matrix):.6f}]")
++    print(f"DEBUG: Wasserstein矩阵形状={wasserstein_matrix.shape}, 范围=[{np.min(wasserstein_matrix):.6f}, {np.max(wasserstein_matrix):.6f}]")
++    
++    # 1. 记录标量指标
++    scalar_dict = {
++        'MOE_Divergence/Immediate_AvgJS_Divergence': js_stats['avg'],
++        'MOE_Divergence/Immediate_MaxJS_Divergence': js_stats['max'],
++        'MOE_Divergence/Immediate_AvgWasserstein_Distance': wasserstein_stats['avg'],
++        'MOE_Divergence/Immediate_MaxWasserstein_Distance': wasserstein_stats['max'],
++    }
++    
++    for key, value in scalar_dict.items():
++        tb_logger.add_scalar(key, value, global_step=train_iter)
++    
++    # 1.1 打印核心指标到控制台
++    print("=" * 65)
++    print(f" 任务间分布差异统计 (Iteration: {train_iter})")
++    print("=" * 65)
++    print(f"参与任务数量: {n_tasks} | 任务ID: {list(task_ids)}")
++    print(f"计算设备: {divergence_data.get('device', 'Unknown')} | GPU加速: {'启用' if divergence_data.get('gpu_accelerated', False) else '禁用'}")
++    print("-" * 65)
++    print("JS散度 (Jensen-Shannon Divergence):")
++    print(f"  平均值: {js_stats['avg']:.6f}  |  最大值: {js_stats['max']:.6f}")
++    print(f"  最小值: {js_stats['min']:.6f}  |  标准差: {js_stats['std']:.6f}")
++    print("-" * 65)
++    print("Wasserstein距离:")
++    print(f"  平均值: {wasserstein_stats['avg']:.6f}  |  最大值: {wasserstein_stats['max']:.6f}")
++    print(f"  最小值: {wasserstein_stats['min']:.6f}  |  标准差: {wasserstein_stats['std']:.6f}")
++    print("=" * 65)
++    
++    # 2. 记录去掉对角线的相似度矩阵热力图
++    task_ids = divergence_data['task_ids']
++    n_tasks = divergence_data['n_tasks']
++    
++    if n_tasks <= 25:  # 限制矩阵大小避免过大热力图
++        try:
++            # JS散度矩阵热力图（无对角线）
++            js_heatmap = create_similarity_heatmap_no_diagonal(
++                divergence_data['js_matrix'], 
++                task_ids, 
++                'js_divergence',
++                f'(Immediate-{n_tasks} tasks)'
++            )
++            tb_logger.add_image(
++                'TaskSimilarity/Immediate_JS_Matrix_NoDiagonal',
++                js_heatmap,
++                global_step=train_iter,
++                dataformats='CHW'
++            )
++            
++            # Wasserstein距离矩阵热力图（无对角线）
++            wass_heatmap = create_similarity_heatmap_no_diagonal(
++                divergence_data['wasserstein_matrix'], 
++                task_ids, 
++                'wasserstein_distance',
++                f'(Immediate-{n_tasks} tasks)'
++            )
++            tb_logger.add_image(
++                'TaskSimilarity/Immediate_Wasserstein_Matrix_NoDiagonal',
++                wass_heatmap,
++                global_step=train_iter,
++                dataformats='CHW'
++            )
++            
++        except Exception as e:
++            print(f"Warning: 相似度矩阵热力图生成失败: {e}")
++    
++    # 3. 记录任务对指标（可选）
++    if n_tasks <= 20:
++        log_pairwise_optimized(tb_logger, divergence_data, train_iter)
++
++def collect_and_log_divergences_with_heatmaps(tb_logger, merged_stats, train_iter):
++    """
++    完整的分布差异计算和记录（包含无对角线热力图）
++    """
++    try:
++        # GPU优化计算
++        divergence_data = compute_distribution_divergences_optimized(merged_stats, 'immediate')
++        
++        if not divergence_data:
++            print(f"跳过分布差异计算 - 任务数不足 (需要>=2个任务)")
++            return
++        
++        # 记录指标和热力图
++        log_divergences_with_heatmaps(tb_logger, divergence_data, train_iter)
++        
++        # 汇总打印
++        print(f">> 分布差异统计已完成并记录到TensorBoard")
++        if divergence_data.get('n_tasks', 0) <= 25:
++            print(f">> 相似度矩阵热力图已生成 (去除对角线)")
++        if divergence_data.get('n_tasks', 0) <= 20:
++            print(f">> 任务对详细指标已记录")
++        print()  # 空行分隔
++        
++    except Exception as e:
++        print(f"ERROR: 分布差异计算失败 - {e}")
++        import traceback
++        traceback.print_exc()
++
++
++# ==================== GPU内存池优化模块 =============================
++class GPUTensorPool:
++    """
++    轻量级GPU张量池 - 针对8x8矩阵优化
++    
++    只缓存最常用的张量：
++    - 频率矩阵 (8, 8)
++    - JS散度矩阵 (8, 8) 
++    - Wasserstein矩阵 (8, 8)
++    - 临时计算缓冲区
++    """
++    def __init__(self, device):
++        self.device = device
++        self.tensor_cache = {}
++        self.max_cache_size = 20  # 限制缓存大小
++        self.hit_count = 0
++        self.miss_count = 0
++    
++    def get_tensor(self, shape, dtype=torch.float32, key="default"):
++        """获取缓存的张量或创建新的"""
++        cache_key = (tuple(shape), dtype, key)
++        
++        if cache_key in self.tensor_cache:
++            tensor = self.tensor_cache[cache_key]
++            if tensor.shape == shape and tensor.device == self.device:
++                self.hit_count += 1
++                return tensor.zero_()  # 复用并清零
++        
++        # 创建新张量并缓存
++        tensor = torch.zeros(shape, dtype=dtype, device=self.device)
++        if len(self.tensor_cache) < self.max_cache_size:
++            self.tensor_cache[cache_key] = tensor
++        
++        self.miss_count += 1
++        return tensor
++    
++    def get_cache_stats(self):
++        """获取缓存命中率统计"""
++        total = self.hit_count + self.miss_count
++        hit_rate = self.hit_count / total if total > 0 else 0
++        return {
++            'hit_count': self.hit_count,
++            'miss_count': self.miss_count, 
++            'hit_rate': hit_rate,
++            'cache_size': len(self.tensor_cache)
++        }
++    
++    def clear_cache(self):
++        """清理缓存"""
++        self.tensor_cache.clear()
++        self.hit_count = 0
++        self.miss_count = 0
++
++
++class BatchComputeOptimizer:
++    """
++    批量计算优化器 - GPU向量化处理
++    
++    优化目标：
++    - JS散度计算向量化
++    - Wasserstein距离计算向量化  
++    - 减少GPU内存分配
++    """
++    def __init__(self, tensor_pool):
++        self.pool = tensor_pool
++        self.compute_count = 0
++        self.total_compute_time = 0.0
++    
++    def optimized_js_divergence(self, distributions_tensor):
++        """优化的JS散度计算 - 复用内存"""
++        start_time = time.time() if hasattr(time, 'time') else 0
++        
++        n_tasks, n_experts = distributions_tensor.shape
++        device = distributions_tensor.device
++        
++        # 复用缓存的张量
++        js_matrix = self.pool.get_tensor((n_tasks, n_tasks), key="js_matrix")
++        
++        # 向量化计算（原有算法保持不变）
++        eps = 1e-8
++        distributions_tensor = distributions_tensor / (distributions_tensor.sum(dim=1, keepdim=True) + eps)
++        
++        P_i = distributions_tensor.unsqueeze(1)  
++        P_j = distributions_tensor.unsqueeze(0)  
++        M = 0.5 * (P_i + P_j)
++        
++        log_ratio_i = torch.log((P_i + eps) / (M + eps))
++        kl_i_m = torch.sum(P_i * log_ratio_i, dim=2)
++        
++        log_ratio_j = torch.log((P_j + eps) / (M + eps))
++        kl_j_m = torch.sum(P_j * log_ratio_j, dim=2)
++        
++        js_matrix.copy_(0.5 * (kl_i_m + kl_j_m))
++        
++        # 统计计算时间
++        if hasattr(time, 'time'):
++            self.total_compute_time += time.time() - start_time
++            self.compute_count += 1
++            
++        return js_matrix
++        
++    def optimized_wasserstein(self, distributions_tensor):
++        """优化的Wasserstein距离计算 - 复用内存"""
++        start_time = time.time() if hasattr(time, 'time') else 0
++        
++        n_tasks, n_experts = distributions_tensor.shape
++        
++        # 复用缓存的张量
++        wass_matrix = self.pool.get_tensor((n_tasks, n_tasks), key="wass_matrix")
++        cdf_buffer = self.pool.get_tensor((n_tasks, n_experts), key="cdf_buffer")
++        
++        # 向量化计算
++        eps = 1e-8
++        distributions_tensor = distributions_tensor / (distributions_tensor.sum(dim=1, keepdim=True) + eps)
++        
++        # 复用缓冲区计算CDF
++        torch.cumsum(distributions_tensor, dim=1, out=cdf_buffer)
++        
++        cdf_i = cdf_buffer.unsqueeze(1)
++        cdf_j = cdf_buffer.unsqueeze(0)
++        
++        wass_matrix.copy_(torch.sum(torch.abs(cdf_i - cdf_j), dim=2))
++        
++        # 统计计算时间
++        if hasattr(time, 'time'):
++            self.total_compute_time += time.time() - start_time
++            self.compute_count += 1
++            
++        return wass_matrix
++    
++    def get_performance_stats(self):
++        """获取性能统计"""
++        avg_time = self.total_compute_time / self.compute_count if self.compute_count > 0 else 0
++        return {
++            'compute_count': self.compute_count,
++            'total_time': self.total_compute_time,
++            'avg_time_per_compute': avg_time,
++            'cache_stats': self.pool.get_cache_stats()
++        }
++
++
++# 全局优化器实例
++_gpu_optimizer = None
++
++def get_gpu_optimizer():
++    """获取全局GPU优化器实例"""
++    global _gpu_optimizer
++    if _gpu_optimizer is None:
++        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
++        tensor_pool = GPUTensorPool(device)
++        _gpu_optimizer = BatchComputeOptimizer(tensor_pool)
++    return _gpu_optimizer
++
++def get_optimization_stats():
++    """获取优化性能统计（调试用）"""
++    if _gpu_optimizer is not None:
++        return _gpu_optimizer.get_performance_stats()
++    return None
+diff --git a/lzero/mcts/tree_search/mcts_ctree.py b/lzero/mcts/tree_search/mcts_ctree.py
+index 97c3528..60f389d 100644
+--- a/lzero/mcts/tree_search/mcts_ctree.py
++++ b/lzero/mcts/tree_search/mcts_ctree.py
+@@ -46,7 +46,7 @@ class UniZeroMCTSCtree(object):
+         cfg.cfg_type = cls.__name__ + 'Dict'
+         return cfg
+ 
+-    def __init__(self, cfg: EasyDict = None) -> None:
++    def __init__(self, cfg: EasyDict = None,eval=False) -> None:
+         """
+         Overview:
+             Use the default configuration mechanism. If a user passes in a cfg with a key that matches an existing key
+@@ -56,9 +56,13 @@ class UniZeroMCTSCtree(object):
+         default_config = self.default_config()
+         default_config.update(cfg)
+         self._cfg = default_config
++        if eval:
++            self._cfg.num_simulations=self._cfg.eval_num_simulations
++        
+         self.inverse_scalar_transform_handle = InverseScalarTransform(
+             self._cfg.model.support_scale, self._cfg.device, self._cfg.model.categorical_distribution
+         )
++        
+ 
+     @classmethod
+     def roots(cls: int, active_collect_env_num: int, legal_actions: List[Any]) -> "mz_ctree":
+diff --git a/lzero/model/unizero_world_models/transformer.py b/lzero/model/unizero_world_models/transformer.py
+index 6a3c74d..4cdd1f1 100644
+--- a/lzero/model/unizero_world_models/transformer.py
++++ b/lzero/model/unizero_world_models/transformer.py
+@@ -579,11 +579,10 @@ class Transformer(nn.Module):
+     
+     # added by tangjia :
+     def get_block_before_moe_gradients(self) -> Dict[int, torch.Tensor]:
+-        block_before_moe_grad_list=[]
+-        for block_id, block in enumerate(self.blocks):
+-            if block.block_before_moe_grad is not None:
+-                block_before_moe_grad_list.append(block.block_before_moe_grad)
+-        return block_before_moe_grad_list        
++        # 把最后一个返回即可
++        
++        return self.blocks[-1].block_before_moe_grad
++          
+ 
+     def get_last_shared_expert_gradients(self) -> List[Dict[str, torch.Tensor]]:
+         """
+@@ -756,8 +755,14 @@ class Block(nn.Module):
+         else:
+             x = x + x_attn
+             block_before_moe=self.ln2(x)
+-            if self.training:
+-                block_before_moe.register_hook(lambda grad: setattr(self, 'block_before_moe_grad', grad)) #note: register hook to save gradients of before_moe
++            if self.training and is_last_block:
++                # 清除之前的梯度
++                self.block_before_moe_grad = None
++                # 使用更安全的hook注册方式，避免闭包问题
++                def grad_hook(grad):
++                    self.block_before_moe_grad = grad.clone()  # 克隆梯度避免引用问题
++                    return None
++                block_before_moe.register_hook(grad_hook)
+             
+             # 在最后一层且使用MOE时，传递task_id以收集专家选择统计
+             if is_last_block and self.config.multiplication_moe_in_transformer and hasattr(self.feed_forward, 'forward'):
+diff --git a/lzero/policy/unizero_multitask.py b/lzero/policy/unizero_multitask.py
+index 0c74381..c9b1496 100644
+--- a/lzero/policy/unizero_multitask.py
++++ b/lzero/policy/unizero_multitask.py
+@@ -14,7 +14,7 @@ from lzero.policy import prepare_obs_stack_for_unizero
+ from lzero.policy import scalar_transform, InverseScalarTransform, phi_transform, \
+     DiscreteSupport, to_torch_float_tensor, mz_network_output_unpack, select_action, prepare_obs
+ from lzero.policy.unizero import UniZeroPolicy
+-from .utils import configure_optimizers_nanogpt, compute_gradient_conflict_distributed
++from .utils import configure_optimizers_nanogpt, compute_gradient_conflict_distributed, log_gradient_conflict_heatmaps_distributed_fast
+ import sys
+ 
+ # sys.path.append('/cpfs04/user/puyuan/code/LibMTL')
+@@ -27,109 +27,6 @@ from LibMTL.weighting.moco_fast_mem_eff import FastMoCoMemEff as FastMoCo
+ from LibMTL.weighting.moco_fast_mem_eff import MoCoCfg
+ import torch.distributed as dist
+ 
+-# 预导入matplotlib模块，避免重复导入开销
+-import matplotlib
+-matplotlib.use('Agg')
+-import matplotlib.pyplot as plt
+-import numpy as np
+-
+-# 全局figure缓存
+-_GLOBAL_FIG_CACHE = None
+-_GLOBAL_AX_CACHE = None
+-
+-def _get_or_create_figure(figsize=(8, 6)):
+-    """获取或创建复用的matplotlib figure"""
+-    global _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE
+-    if _GLOBAL_FIG_CACHE is None:
+-        _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE = plt.subplots(figsize=figsize)
+-    return _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE
+-
+-def _fast_tensor_heatmap(matrix_np, tag):
+-    """快速生成热力图tensor - 跳过文本标注以提升性能"""
+-    fig, ax = _get_or_create_figure()
+-    
+-    # 清除之前的内容
+-    ax.clear()
+-    
+-    # 使用Blues colormap
+-    im = ax.imshow(matrix_np, cmap='Blues', vmin=-1, vmax=1)
+-    ax.set_title(f'{tag}', fontsize=12)
+-    
+-    # 只在小矩阵时添加数值标注（避免O(n²)开销）
+-    if matrix_np.size <= 64:  # 8x8或更小
+-        for row in range(matrix_np.shape[0]):
+-            for col in range(matrix_np.shape[1]):
+-                value = matrix_np[row, col]
+-                text_color = "white" if value > 0.5 else "black"
+-                ax.text(col, row, f'{value:.2f}',
+-                       ha="center", va="center", color=text_color, fontsize=8)
+-    
+-    # 快速转换为tensor
+-    fig.canvas.draw()
+-    try:
+-        if hasattr(fig.canvas, 'buffer_rgba'):
+-            buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
+-            buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (4,))
+-            img_tensor = torch.from_numpy(buf[:, :, :3]).permute(2, 0, 1).float() / 255.0
+-        else:
+-            buf = np.frombuffer(fig.canvas.tostring_rgb(), dtype=np.uint8)
+-            buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+-            img_tensor = torch.from_numpy(buf).permute(2, 0, 1).float() / 255.0
+-    except Exception:
+-        # 回退方案：创建简单的蓝色矩阵
+-        h, w = matrix_np.shape
+-        img_tensor = torch.zeros(3, h*50, w*50)  # 简单放大
+-        img_tensor[2] = torch.from_numpy(matrix_np).repeat_interleave(50, 0).repeat_interleave(50, 1)
+-    
+-    return img_tensor
+-
+-
+-def log_gradient_conflict_heatmaps_distributed_fast(tb_logger, matrix_list, step):
+-    """
+-    高性能分布式热力图处理 - 优化版本
+-    
+-    优化点:
+-    1. 预导入matplotlib模块，避免重复导入开销
+-    2. 复用figure对象，减少内存分配
+-    3. 大矩阵跳过文本标注，避免O(n²)性能损失
+-    4. 条件barrier，减少等待时间
+-    5. 异常时快速回退，保证鲁棒性
+-    
+-    Args:
+-        tb_logger: TensorBoard logger
+-        matrix_list: list of (tag, matrix) tuples
+-        step: int, 全局步数
+-    """
+-    if not matrix_list:
+-        return
+-    
+-    rank = dist.get_rank()
+-    world_size = dist.get_world_size()
+-    
+-    try:
+-        # 批处理：每个GPU处理自己的矩阵
+-        processed_any = False
+-        for i in range(rank, len(matrix_list), world_size):
+-            tag, matrix = matrix_list[i]
+-            if matrix is not None and matrix.numel() > 0:
+-                matrix_np = matrix.detach().cpu().numpy()
+-                
+-                # 使用优化的热力图生成
+-                img_tensor = _fast_tensor_heatmap(matrix_np, tag)
+-                tb_logger.add_image(f'gradient_conflicts/{tag}', img_tensor, global_step=step)
+-                processed_any = True
+-        
+-        # 条件性同步：只有处理了数据的GPU才需要barrier
+-        if processed_any or rank == 0:  # rank 0始终参与同步以防死锁
+-            dist.barrier()
+-        
+-    except Exception as e:
+-        print(f"Rank {rank}: Error in optimized heatmap logging: {e}")
+-        # 紧急同步避免死锁
+-        try:
+-            dist.barrier()
+-        except:
+-            pass
+ 
+ 
+ 
+@@ -247,7 +144,7 @@ class UniZeroMTPolicy(UniZeroPolicy):
+     def __init__(self, cfg, model = None, enable_field = None):
+         super().__init__(cfg, model, enable_field)
+         self.step=0
+-        self.save_freq=100
++        self.save_freq=200
+         
+         self.cal_profile=False
+         if self.cal_profile:
+@@ -435,8 +332,10 @@ class UniZeroMTPolicy(UniZeroPolicy):
+         n_episode=8,
+         # (int) The number of num_segments in each collecting stage when use muzero_segment_collector.
+         num_segments=8,
+-        # (int) the number of simulations in MCTS.
++        # (int) the number of simulations in MCTS for collect.
+         num_simulations=50,
++        # (int) the number of simulations in MCTS for eval. If not set, use num_simulations.
++        eval_num_simulations=50,
+         # (float) Discount factor (gamma) for returns.
+         discount_factor=0.997,
+         # (int) The number of steps for calculating target q_value.
+@@ -931,14 +830,13 @@ class UniZeroMTPolicy(UniZeroPolicy):
+                 # 每次计算前清零梯度，确保梯度独立
+                 self._optimizer_world_model.zero_grad()
+                 
+-                # 对每个任务的 loss 调用 backward 计算全网络梯度
++                # 计算encoder上的梯度冲突
+                 losses_list[i].backward(retain_graph=True) #保留梯度图，因为后面还有backward
+                 local_encoder_grad_list.append(self._learn_model.world_model.obs_embeddings_grad.view(-1).detach().clone())
+                 
+                 
+-                # self_attention
+-                attention_before_moe_list=self._learn_model.world_model.transformer.get_block_before_moe_gradients()
+-                before_moe_grad=attention_before_moe_list[0]
++                # self_attention 最后一个transformer block
++                before_moe_grad=self._learn_model.world_model.transformer.get_block_before_moe_gradients()
+                 local_before_moe_grad_list.append(before_moe_grad.view(-1).detach().clone())
+                 
+                 # 获取共享 expert 的梯度 
+@@ -1127,11 +1025,13 @@ class UniZeroMTPolicy(UniZeroPolicy):
+             # 转换为list，准备分布式处理
+             matrix_list = list(matrix_dict.items())
+             log_gradient_conflict_heatmaps_distributed_fast(self.logger, matrix_list, self.step)
+-                
+-                    
+-                    
++            
+         if self.log_conflict_var:    
+-            return_loss_dict.update(gradient_conflict_log_dict)
++            # 在TensorBoard中记录gradient_conflict_log_dict中的标量数据
++            for key, value in gradient_conflict_log_dict.items():
++                self.logger.add_scalar(f'gradient_conflict/{key}', value, self.step)
++
++ 
+             
+         # print(f'Rank {rank} 正在根据冲突记录日志')
+         # print(gradient_conflict_log_dict)
+@@ -1273,24 +1173,24 @@ class UniZeroMTPolicy(UniZeroPolicy):
+             'weighted_total_loss',
+             'total_grad_norm_before_clip_wm',
+             # modified by tangjia
+-            'avg_encoder_grad_conflict',
+-            'avg_before_moe_grad_conflict',
+-            'avg_shared_expert_grad_conflict',
+-
+-             'max_encoder_grad_conflict',
+-            'max_before_moe_grad_conflict',
+-            'max_shared_expert_grad_conflict',
+-            "avg_moe_layer_grad_conflict",
+-            "max_moe_layer_grad_conflict",
++            # 'avg_encoder_grad_conflict',
++            # 'avg_before_moe_grad_conflict',
++            # 'avg_shared_expert_grad_conflict',
++
++            # 'max_encoder_grad_conflict',
++            # 'max_before_moe_grad_conflict',
++            # 'max_shared_expert_grad_conflict',
++            # "avg_moe_layer_grad_conflict",
++            # "max_moe_layer_grad_conflict",
+         ]
+         
+-        # # If the model uses MoE, add expert gradient conflict variables
+-        if self._learn_model.world_model.transformer.shared_expert > 0:
+-            monitored_vars.append('avg_shared_expert_grad_conflict')
+-            monitored_vars.append('max_shared_expert_grad_conflict')
+-        for i in range(self._learn_model.world_model.transformer.num_experts):
+-            monitored_vars.append(f'avg_expert_{i}_grad_conflict')
+-            monitored_vars.append(f'max_expert_{i}_grad_conflict')
++        # # # If the model uses MoE, add expert gradient conflict variables
++        # if self._learn_model.world_model.transformer.shared_expert > 0:
++        #     monitored_vars.append('avg_shared_expert_grad_conflict')
++        #     monitored_vars.append('max_shared_expert_grad_conflict')
++        # for i in range(self._learn_model.world_model.transformer.num_experts):
++        #     monitored_vars.append(f'avg_expert_{i}_grad_conflict')
++        #     monitored_vars.append(f'max_expert_{i}_grad_conflict')
+ 
+ 
+         # rank = get_rank()
+@@ -1520,10 +1420,23 @@ class UniZeroMTPolicy(UniZeroPolicy):
+             Evaluate mode init method. Called by ``self.__init__``. Initialize the eval model and MCTS utils.
+         """
+         self._eval_model = self._model
++        
++        # 创建eval专用的配置对象，使用eval_num_simulations
++        # eval_cfg = copy.deepcopy(self._cfg)
++        # eval_num_simulations = getattr(self._cfg, 'eval_num_simulations', self._cfg.num_simulations)
++        # eval_cfg.num_simulations = eval_num_simulations
++        
++        # # 打印collect和eval的num_simulations设置
++        # print(f"=== MCTS Simulations Config ===")
++        # print(f"Collect num_simulations: {self._cfg.num_simulations}")
++        # print(f"Eval num_simulations: {eval_num_simulations}")
++        # print(f"===============================")
++        
+         if self._cfg.mcts_ctree:
+-            self._mcts_eval = MCTSCtree(self._cfg)
++            self._mcts_eval = MCTSCtree(self._cfg,eval=True)  # 使用eval专用配置
+         else:
+-            self._mcts_eval = MCTSPtree(self._cfg)
++            self._mcts_eval = MCTSPtree(self._cfg)   # 使用eval专用配置
++        
+         self.evaluator_env_num = self._cfg.evaluator_env_num
+ 
+         if self._cfg.model.model_type == 'conv':
+diff --git a/lzero/policy/utils.py b/lzero/policy/utils.py
+index de0787e..f621ac2 100644
+--- a/lzero/policy/utils.py
++++ b/lzero/policy/utils.py
+@@ -700,6 +700,139 @@ def mz_network_output_unpack(network_output: Dict) -> Tuple:
+ # ==================== modified by tangjia=============================
+ import torch.distributed as dist
+ 
++# ==================== 梯度冲突矩阵可视化模块 =============================
++# 预导入matplotlib模块，避免重复导入开销
++import matplotlib
++matplotlib.use('Agg')
++
++# 全局figure缓存
++_GLOBAL_FIG_CACHE = None
++_GLOBAL_AX_CACHE = None
++
++def _get_or_create_figure(figsize=(8, 6)):
++    """获取或创建复用的matplotlib figure"""
++    global _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE
++    if _GLOBAL_FIG_CACHE is None:
++        _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE = plt.subplots(figsize=figsize)
++    return _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE
++
++def _fast_tensor_heatmap(matrix_np, tag):
++    """快速生成热力图tensor - 跳过文本标注以提升性能，移除对角线元素"""
++    # 复制矩阵以避免修改原始数据
++    matrix_no_diag = matrix_np.copy()
++    
++    # 移除对角线元素（设为0）
++    if matrix_no_diag.shape[0] == matrix_no_diag.shape[1]:  # 方阵才有对角线
++        np.fill_diagonal(matrix_no_diag, 0)
++    
++    # 创建新的figure而不是复用全局缓存
++    fig, ax = plt.subplots(figsize=(8, 6))
++    
++    # 直接使用矩阵，对角线已设为0
++    # 使用Blues colormap，调整颜色范围为-0.2到0.2
++    im = ax.imshow(matrix_no_diag, cmap='Blues', vmin=-0.2, vmax=0.2)
++    ax.set_title(f'{tag}', fontsize=12)
++    
++    # 只在小矩阵时添加数值标注（避免O(n²)开销）
++    if matrix_no_diag.size <= 64:  # 8x8或更小
++        for row in range(matrix_no_diag.shape[0]):
++            for col in range(matrix_no_diag.shape[1]):
++                if row != col:  # 跳过对角线元素
++                    value = matrix_no_diag[row, col]
++                    text_color = "white" if value > 0.5 else "black"
++                    ax.text(col, row, f'{value:.2f}',
++                           ha="center", va="center", color=text_color, fontsize=8)
++    
++    # 快速转换为tensor
++    fig.canvas.draw()
++    try:
++        # 尝试新版matplotlib的方法
++        if hasattr(fig.canvas, 'buffer_rgba'):
++            buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
++            buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (4,))
++            img_tensor = torch.from_numpy(buf[:, :, :3]).permute(2, 0, 1).float() / 255.0
++        elif hasattr(fig.canvas, 'tostring_rgb'):
++            # 旧版matplotlib方法
++            buf = np.frombuffer(fig.canvas.tostring_rgb(), dtype=np.uint8)
++            buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (3,))
++            img_tensor = torch.from_numpy(buf).permute(2, 0, 1).float() / 255.0
++        else:
++            # PIL回退方案
++            try:
++                from PIL import Image
++                import io
++                buf = io.BytesIO()
++                fig.savefig(buf, format='png', bbox_inches='tight', pad_inches=0)
++                buf.seek(0)
++                pil_img = Image.open(buf).convert('RGB')
++                img_array = np.array(pil_img)
++                img_tensor = torch.from_numpy(img_array).permute(2, 0, 1).float() / 255.0
++            except Exception:
++                # 最终回退方案：创建简单的蓝色矩阵
++                h, w = matrix_no_diag.shape
++                img_tensor = torch.zeros(3, h*50, w*50)  # 简单放大
++                img_tensor[2] = torch.from_numpy(matrix_no_diag).repeat_interleave(50, 0).repeat_interleave(50, 1)
++    except Exception:
++        # 回退方案：创建简单的蓝色矩阵
++        h, w = matrix_no_diag.shape
++        img_tensor = torch.zeros(3, h*50, w*50)  # 简单放大
++        img_tensor[2] = torch.from_numpy(matrix_no_diag).repeat_interleave(50, 0).repeat_interleave(50, 1)
++    finally:
++        # 关闭图形释放内存
++        plt.close(fig)
++    
++    return img_tensor
++
++
++def log_gradient_conflict_heatmaps_distributed_fast(tb_logger, matrix_list, step):
++    """
++    高性能分布式热力图处理 - 优化版本
++    
++    优化点:
++    1. 预导入matplotlib模块，避免重复导入开销
++    2. 复用figure对象，减少内存分配
++    3. 大矩阵跳过文本标注，避免O(n²)性能损失
++    4. 条件barrier，减少等待时间
++    5. 异常时快速回退，保证鲁棒性
++    
++    Args:
++        tb_logger: TensorBoard logger
++        matrix_list: list of (tag, matrix) tuples
++        step: int, 全局步数
++    """
++    if not matrix_list:
++        return
++    
++    rank = dist.get_rank()
++    world_size = dist.get_world_size()
++    
++    try:
++        # 批处理：每个GPU处理自己的矩阵
++        processed_any = False
++        for i in range(rank, len(matrix_list), world_size):
++            tag, matrix = matrix_list[i]
++            if matrix is not None and matrix.numel() > 0:
++                matrix_np = matrix.detach().cpu().numpy()
++                
++                # 使用优化的热力图生成
++                img_tensor = _fast_tensor_heatmap(matrix_np, tag)
++                tb_logger.add_image(f'gradient_conflict_matrix/{tag}', img_tensor, global_step=step)
++                processed_any = True
++        
++        # 条件性同步：只有处理了数据的GPU才需要barrier
++        if processed_any or rank == 0:  # rank 0始终参与同步以防死锁
++            dist.barrier()
++        
++    except Exception as e:
++        print(f"Rank {rank}: Error in optimized heatmap logging: {e}")
++        # 紧急同步避免死锁
++        try:
++            dist.barrier()
++        except:
++            pass
++
++# ==================== 原有的梯度冲突计算模块 =============================
++
+ 
+ 
+ def example_usage():
+@@ -885,5 +1018,128 @@ def compute_gradient_conflict_distributed(local_grads, multi_gpu=True, device=0)
+         'cosine_similarity_matrix': similarity
+     })
+ 
++def compute_gradient_conflicts_batch(gradient_groups: Dict[str, torch.Tensor], device=0) -> Dict[str, dict]:
++    """
++    批量计算多组梯度的冲突，减少分布式通信开销
++    
++    Args:
++        gradient_groups: 字典，key为组名，value为梯度tensor (local_task_num, grad_dim)
++        device: 设备
++        
++    Returns:
++        results: 字典，key为组名，value为冲突计算结果
++    """
++    rank = dist.get_rank() if dist.is_initialized() else 0
++    world_size = dist.get_world_size() if dist.is_initialized() else 1
++    
++    results = {}
++    
++    if world_size == 1:
++        # 单GPU模式
++        for group_name, local_grads in gradient_groups.items():
++            if local_grads.numel() == 0:
++                results[group_name] = EasyDict({'avg_conflict_score': 0.0})
++                continue
++                
++            # 过滤零梯度
++            norms = torch.norm(local_grads, dim=1)
++            valid_mask = norms > 1e-8
++            local_grads_filtered = local_grads[valid_mask]
++            
++            if local_grads_filtered.shape[0] <= 1:
++                results[group_name] = EasyDict({
++                    'avg_conflict_score': 0.0, 
++                    'max_conflict_score': 0.0, 
++                    'min_conflict_score': 0.0,
++                    'cosine_similarity_matrix': torch.zeros(1, 1, device=device)
++                })
++            else:
++                grad_list = [local_grads_filtered[i] for i in range(local_grads_filtered.shape[0])]
++                results[group_name] = compute_gradient_conflicts(grad_list)
++        return results
++    
++    # 多GPU模式 - 一次性收集所有梯度组
++    # 准备本地数据：过滤零梯度并记录有效数量
++    local_filtered_groups = {}
++    local_valid_counts = {}
++    
++    for group_name, local_grads in gradient_groups.items():
++        if local_grads.numel() == 0:
++            local_filtered_groups[group_name] = torch.empty(0, 0, device=device)
++            local_valid_counts[group_name] = 0
++            continue
++            
++        norms = torch.norm(local_grads, dim=1)
++        valid_mask = norms > 1e-8
++        filtered = local_grads[valid_mask]
++        local_filtered_groups[group_name] = filtered
++        local_valid_counts[group_name] = filtered.shape[0]
++    
++    # 收集所有rank的有效数量
++    all_valid_counts = [None for _ in range(world_size)]
++    dist.all_gather_object(all_valid_counts, local_valid_counts)
++    
++    # 计算每组的最大任务数，用于填充
++    max_counts = {}
++    for group_name in gradient_groups.keys():
++        counts = [counts_dict.get(group_name, 0) for counts_dict in all_valid_counts]
++        max_counts[group_name] = max(counts) if counts else 0
++    
++    # 填充并准备发送数据
++    local_padded_groups = {}
++    for group_name, filtered_grads in local_filtered_groups.items():
++        max_count = max_counts[group_name]
++        if max_count == 0:
++            local_padded_groups[group_name] = torch.empty(0, 0)
++            continue
++            
++        if filtered_grads.shape[0] < max_count:
++            if filtered_grads.numel() > 0:
++                pad_size = max_count - filtered_grads.shape[0]
++                grad_dim = filtered_grads.shape[1]
++                pad_tensor = torch.zeros(pad_size, grad_dim, device=device)
++                padded = torch.cat([filtered_grads, pad_tensor], dim=0)
++            else:
++                grad_dim = gradient_groups[group_name].shape[1] if gradient_groups[group_name].numel() > 0 else 1
++                padded = torch.zeros(max_count, grad_dim, device=device)
++        else:
++            padded = filtered_grads
++            
++        local_padded_groups[group_name] = padded.cpu()
++    
++    # 一次性收集所有组的数据
++    all_gradient_groups = [None for _ in range(world_size)]
++    dist.all_gather_object(all_gradient_groups, local_padded_groups)
++    
++    if rank == 0:
++        # 处理每个梯度组
++        for group_name in gradient_groups.keys():
++            # 收集该组的所有有效梯度
++            valid_grad_list = []
++            for rank_idx, rank_data in enumerate(all_gradient_groups):
++                if group_name in rank_data:
++                    valid_count = all_valid_counts[rank_idx].get(group_name, 0)
++                    if valid_count > 0:
++                        tensor_valid = rank_data[group_name][:valid_count, :].to(device)
++                        valid_grad_list.append(tensor_valid)
++            
++            if len(valid_grad_list) == 0:
++                results[group_name] = EasyDict({'avg_conflict_score': 0.0})
++            else:
++                all_grads = torch.cat(valid_grad_list, dim=0)
++                if all_grads.shape[0] <= 1:
++                    results[group_name] = EasyDict({'avg_conflict_score': 0.0})
++                else:
++                    grad_list = [all_grads[i] for i in range(all_grads.shape[0])]
++                    results[group_name] = compute_gradient_conflicts(grad_list)
++    else:
++        results = None
++    
++    # 广播结果到所有rank
++    results_list = [results]
++    dist.broadcast_object_list(results_list, src=0)
++    return results_list[0]
++
++
+ if __name__ == "__main__":
+     example_usage()
+diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+index 31ed634..d355df1 100644
+--- a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
++++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+@@ -55,7 +55,7 @@ def compute_batch_config(
+     return batch_sizes, grad_acc_steps
+ 
+ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+-                  num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                   norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                   total_batch_size, num_layers):
+     return EasyDict(dict(
+@@ -192,6 +192,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             cos_lr_scheduler=False,
+             num_segments=num_segments,
+             num_simulations=num_simulations,
++            eval_num_simulations=eval_num_simulations,
+             reanalyze_ratio=reanalyze_ratio,
+             n_episode=n_episode,
+             replay_buffer_size=int(5e5),
+@@ -204,9 +205,8 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             reanalyze_partition=reanalyze_partition,
+         ),
+     ))
+-
+ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                     num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                      norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                      num_segments, total_batch_size, num_layers):
+     configs = []
+@@ -247,7 +247,7 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
+     for task_id, env_id in enumerate(env_id_list):
+         config = create_config(
+             env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+-            reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
++            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+             buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
+         )
+         config.policy.task_id = task_id
+@@ -346,7 +346,8 @@ if __name__ == "__main__":
+     num_segments = 8
+     n_episode = 8
+     evaluator_env_num = 3
+-    num_simulations = 50
++    num_simulations = 25          # collect时使用的模拟次数
++    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+     max_env_step = int(4e5)
+     reanalyze_ratio = 0.0
+ 
+@@ -380,7 +381,7 @@ if __name__ == "__main__":
+             effective_batch_size = 512 # nlayer8 需要设置replay_ratio=0.5对应的upc=80
+             # effective_batch_size = 256 # moco nlayer8 需要设置replay_ratio=0.5对应的upc=80
+         elif num_layers == 1:
+-            effective_batch_size = 512 
++            effective_batch_size = 256 
+     elif len(env_id_list) == 26:
+         # effective_batch_size = 832  # cnn-encoder
+         # effective_batch_size = 1024  # base-vit-encoder transformer-nlayer4  or cnn-encoder
+@@ -426,9 +427,9 @@ if __name__ == "__main__":
+ 
+     import torch.distributed as dist
+     # for seed in [1]:
+-    for seed in [1]:
++    for seed in [0]:
+         configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                                   num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
++                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                    norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                    num_segments, total_batch_size, num_layers)
+ 
+diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_fintune_tangjia.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_fintune_tangjia.py
+index 1ef6fd2..0633404 100644
+--- a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_fintune_tangjia.py
++++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_fintune_tangjia.py
+@@ -40,7 +40,7 @@ def compute_batch_config(env_id_list, effective_batch_size):
+ 
+ 
+ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+-                  num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                   norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                   total_batch_size):
+     return EasyDict(dict(
+@@ -190,6 +190,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             cos_lr_scheduler=False,
+             num_segments=num_segments,
+             num_simulations=num_simulations,
++            eval_num_simulations=eval_num_simulations,
+             reanalyze_ratio=reanalyze_ratio,
+             n_episode=n_episode,
+             replay_buffer_size=int(5e5),
+@@ -205,7 +206,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+     ))
+ 
+ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                     num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                      norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                      num_segments, total_batch_size):
+     configs = []
+@@ -218,7 +219,7 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
+     for task_id, env_id in enumerate(env_id_list):
+         config = create_config(
+             env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+-            reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
++            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+             buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size
+         )
+         config.policy.task_id = task_id
+@@ -428,7 +429,8 @@ if __name__ == "__main__":
+     num_segments = 8
+     n_episode = 8
+     evaluator_env_num = 3
+-    num_simulations = 50
++    num_simulations = 25          # collect时使用的模拟次数
++    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+     max_env_step = int(4e5)
+     reanalyze_ratio = 0.0
+     if len(env_id_list) == 1:
+@@ -473,7 +475,7 @@ if __name__ == "__main__":
+ 
+     for seed in [0]:
+         configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                                   num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
++                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                    norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                    num_segments, total_batch_size)
+         pretrained_model_path = '/fs-computility/niuyazhe/tangjia/github/LightZero/ckpt/ckpt_best.pth.tar'
+diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py
+index 0155389..63a26f5 100644
+--- a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py
++++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py
+@@ -55,7 +55,7 @@ def compute_batch_config(
+     return batch_sizes, grad_acc_steps
+ 
+ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+-                  num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                   norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                   total_batch_size, num_layers):
+     return EasyDict(dict(
+@@ -80,7 +80,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             only_use_moco_stats=False,
+             use_moco=False,  # ==============TODO==============
+             # use_moco=True,  # ==============TODO: moco==============
+-            learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=200000))),
++            learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=50000))),
+             grad_correct_params=dict(
+                 MoCo_beta=0.5, MoCo_beta_sigma=0.5, MoCo_gamma=0.1, MoCo_gamma_sigma=0.5, MoCo_rho=0,
+                 calpha=0.5, rescale=1,
+@@ -192,6 +192,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             cos_lr_scheduler=False,
+             num_segments=num_segments,
+             num_simulations=num_simulations,
++            eval_num_simulations=eval_num_simulations,
+             reanalyze_ratio=reanalyze_ratio,
+             n_episode=n_episode,
+             replay_buffer_size=int(5e5),
+@@ -204,9 +205,8 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             reanalyze_partition=reanalyze_partition,
+         ),
+     ))
+-
+ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                     num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                      norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                      num_segments, total_batch_size, num_layers):
+     configs = []
+@@ -247,7 +247,7 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
+     for task_id, env_id in enumerate(env_id_list):
+         config = create_config(
+             env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+-            reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
++            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+             buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
+         )
+         config.policy.task_id = task_id
+@@ -340,13 +340,14 @@ if __name__ == "__main__":
+ 
+ 
+     num_games = 8 # 26 # 8
+-    num_layers = 1 # ==============TODO==============
++    num_layers = 4 # ==============TODO==============
+     action_space_size = 18
+     collector_env_num = 8
+     num_segments = 8
+     n_episode = 8
+     evaluator_env_num = 3
+-    num_simulations = 25
++    num_simulations = 25          # collect时使用的模拟次数
++    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+     max_env_step = int(4e5)
+     reanalyze_ratio = 0.0
+ 
+@@ -426,9 +427,9 @@ if __name__ == "__main__":
+ 
+     import torch.distributed as dist
+     # for seed in [1]:
+-    for seed in [100]:
++    for seed in [0]:
+         configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                                   num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
++                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                    norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                    num_segments, total_batch_size, num_layers)
+ 
+diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_noshare.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_noshare.py
+index 770ceaa..4b32b74 100644
+--- a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_noshare.py
++++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_noshare.py
+@@ -55,7 +55,7 @@ def compute_batch_config(
+     return batch_sizes, grad_acc_steps
+ 
+ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+-                  num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                   norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                   total_batch_size, num_layers):
+     return EasyDict(dict(
+@@ -192,6 +192,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             cos_lr_scheduler=False,
+             num_segments=num_segments,
+             num_simulations=num_simulations,
++            eval_num_simulations=eval_num_simulations,
+             reanalyze_ratio=reanalyze_ratio,
+             n_episode=n_episode,
+             replay_buffer_size=int(5e5),
+@@ -204,9 +205,8 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             reanalyze_partition=reanalyze_partition,
+         ),
+     ))
+-
+ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                     num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                      norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                      num_segments, total_batch_size, num_layers):
+     configs = []
+@@ -247,7 +247,7 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
+     for task_id, env_id in enumerate(env_id_list):
+         config = create_config(
+             env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+-            reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
++            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+             buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
+         )
+         config.policy.task_id = task_id
+@@ -346,7 +346,8 @@ if __name__ == "__main__":
+     num_segments = 8
+     n_episode = 8
+     evaluator_env_num = 3
+-    num_simulations = 25
++    num_simulations = 25          # collect时使用的模拟次数
++    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+     max_env_step = int(4e5)
+     reanalyze_ratio = 0.0
+ 
+@@ -428,7 +429,7 @@ if __name__ == "__main__":
+     # for seed in [1]:
+     for seed in [100]:
+         configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                                   num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
++                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                    norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                    num_segments, total_batch_size, num_layers)
+ 
+diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_only_share.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_only_share.py
+index 35e80b7..0698baa 100644
+--- a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_only_share.py
++++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_only_share.py
+@@ -55,7 +55,7 @@ def compute_batch_config(
+     return batch_sizes, grad_acc_steps
+ 
+ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+-                  num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                   norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                   total_batch_size, num_layers):
+     return EasyDict(dict(
+@@ -192,6 +192,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             cos_lr_scheduler=False,
+             num_segments=num_segments,
+             num_simulations=num_simulations,
++            eval_num_simulations=eval_num_simulations,
+             reanalyze_ratio=reanalyze_ratio,
+             n_episode=n_episode,
+             replay_buffer_size=int(5e5),
+@@ -204,9 +205,8 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
+             reanalyze_partition=reanalyze_partition,
+         ),
+     ))
+-
+ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                     num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
++                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                      norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                      num_segments, total_batch_size, num_layers):
+     configs = []
+@@ -247,7 +247,7 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
+     for task_id, env_id in enumerate(env_id_list):
+         config = create_config(
+             env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+-            reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
++            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+             buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
+         )
+         config.policy.task_id = task_id
+@@ -346,7 +346,8 @@ if __name__ == "__main__":
+     num_segments = 8
+     n_episode = 8
+     evaluator_env_num = 3
+-    num_simulations = 25
++    num_simulations = 25          # collect时使用的模拟次数
++    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+     max_env_step = int(4e5)
+     reanalyze_ratio = 0.0
+ 
+@@ -428,7 +429,7 @@ if __name__ == "__main__":
+     # for seed in [1]:
+     for seed in [100]:
+         configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+-                                   num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
++                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                    norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                    num_segments, total_batch_size, num_layers)
+ 
diff --git a/lzero/entry/train_unizero_multitask_segment_ddp.py b/lzero/entry/train_unizero_multitask_segment_ddp.py
index 3fdcfa099..67cd3a942 100644
--- a/lzero/entry/train_unizero_multitask_segment_ddp.py
+++ b/lzero/entry/train_unizero_multitask_segment_ddp.py
@@ -13,17 +13,35 @@
 from ding.worker import BaseLearner
 from tensorboardX import SummaryWriter
 
-from lzero.entry.utils import log_buffer_memory_usage, TemperatureScheduler
+# 添加性能监控相关导入
+try:
+    from line_profiler import LineProfiler
+except ImportError:
+    LineProfiler = None
+
+from lzero.entry.utils import (
+    log_buffer_memory_usage, TemperatureScheduler,
+    collect_and_log_moe_statistics, collect_and_log_divergences_with_heatmaps
+)
 from lzero.policy import visit_count_temperature
 from lzero.worker import MuZeroEvaluator as Evaluator
 from lzero.worker import MuZeroSegmentCollector as Collector
 from ding.utils import EasyTimer
 import torch.nn.functional as F
-
+import sys
+import os
+PROJECT_ROOT = os.path.abspath("/fs-computility/niuyazhe/tangjia/github/LightZero") # 或者直接写死路径
+sys.path.insert(0, PROJECT_ROOT)
 import torch.distributed as dist
-
+import matplotlib
+matplotlib.use('Agg')  # 使用非交互式后端
+import matplotlib.pyplot as plt
+import seaborn as sns
+from io import BytesIO
+from PIL import Image
+# tb_logger = None
 # ------------------------------------------------------------
-# 1. 额外增加 learner 专用 process-group
+# 1. 额外增加 learner 专用 process-group 
 #    (在 main / learner 初始化时调用一次)
 # ------------------------------------------------------------
 def build_learner_group(learner_ranks: list[int]) -> dist.ProcessGroup:
@@ -37,8 +55,788 @@ def build_learner_group(learner_ranks: list[int]) -> dist.ProcessGroup:
     if dist.get_rank() in learner_ranks:
         torch.cuda.set_device(learner_ranks.index(dist.get_rank()))
     return pg
+
+
+# ------------------------------------------------------------
+# MOE专家选择统计相关函数
+# ------------------------------------------------------------
+def merge_expert_stats_across_ranks(all_expert_stats):
+    """合并所有rank的专家选择统计数据"""
+    merged_stats = {}  # {task_id: {window_type: stats}}
+    
+    for rank_expert_stats in all_expert_stats:
+        if rank_expert_stats:
+            for task_id, task_stats in rank_expert_stats.items():
+                if task_id not in merged_stats:
+                    merged_stats[task_id] = {}
+                
+                for window_type, stats in task_stats.items():
+                    # 只处理有实际数据的统计（当前GPU负责的任务）
+                    if stats and stats.get('total_selections', 0) > 0:
+                        merged_stats[task_id][window_type] = {
+                            'frequencies': np.array(stats['frequencies']),
+                            'total_selections': stats['total_selections'],
+                            'data_points': stats['data_points']
+                        }
+    return merged_stats
+
+
+# 全局图像缓存，避免重复创建 figure
+_GLOBAL_HEATMAP_FIG = None
+_GLOBAL_HEATMAP_AX = None
+
+def _get_or_create_heatmap_figure(figsize):
+    """获取或创建复用的 heatmap figure"""
+    global _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX
+    if _GLOBAL_HEATMAP_FIG is None:
+        _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX = plt.subplots(figsize=figsize)
+    else:
+        # 清除之前的内容
+        _GLOBAL_HEATMAP_AX.clear()
+        # 调整图像大小
+        _GLOBAL_HEATMAP_FIG.set_size_inches(figsize)
+    return _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX
+
+def create_heatmap_with_values_fast(matrix, task_ids, title="Task-Expert Selection Frequencies"):
+    """
+    高效创建带数值标注的蓝色系热力图 - 优化版本
+    
+    优化点:
+    1. 复用 matplotlib figure，减少内存分配
+    2. 大矩阵跳过数值标注，避免性能损失
+    3. 优化图像转换流程
+    4. 使用更低的 DPI 减少计算量
+    """
+    try:
+        figsize = (max(6, matrix.shape[1]), max(4, matrix.shape[0]))
+        fig, ax = _get_or_create_heatmap_figure(figsize)
+        
+        # 智能选择是否显示数值标注
+        show_annot = matrix.size <= 64  # 只在 8x8 或更小时显示数值
+        
+        # 使用 matplotlib 直接绘制，避免 seaborn 的额外开销
+        im = ax.imshow(matrix, cmap='Blues', aspect='auto')
+        
+        # 有选择性地添加数值标注
+        if show_annot:
+            for i in range(matrix.shape[0]):
+                for j in range(matrix.shape[1]):
+                    value = matrix[i, j]
+                    color = 'white' if value > 0.5 else 'black'
+                    ax.text(j, i, f'{value:.3f}', ha='center', va='center', 
+                           color=color, fontsize=8)
+        
+        # 设置标签和标题
+        ax.set_xticks(range(matrix.shape[1]))
+        ax.set_yticks(range(matrix.shape[0]))
+        ax.set_xticklabels([f'E{i}' for i in range(matrix.shape[1])], fontsize=10)
+        ax.set_yticklabels([f'T{tid}' for tid in task_ids], fontsize=10)
+        ax.set_title(title, fontsize=12, pad=15)
+        ax.set_xlabel('Experts', fontsize=10)
+        ax.set_ylabel('Tasks', fontsize=10)
+        
+        # 简化的 colorbar
+        if not hasattr(fig, '_colorbar_created'):
+            plt.colorbar(im, ax=ax, label='Frequency')
+            fig._colorbar_created = True
+        
+        # 优化的图像转换：使用更低 DPI 和简化流程
+        fig.canvas.draw()
+        try:
+            # 直接从 canvas 获取 RGB 数据
+            if hasattr(fig.canvas, 'buffer_rgba'):
+                buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
+                buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (4,))
+                img_array = buf[:, :, :3]  # 去掉 alpha 通道
+            else:
+                buf = np.frombuffer(fig.canvas.tostring_rgb(), dtype=np.uint8)
+                img_array = buf.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+            
+            # 转换为 CHW 格式
+            img_array = img_array.transpose(2, 0, 1)
+            
+        except Exception:
+            # 回退方案：创建简单的蓝色渠度矩阵
+            h, w = matrix.shape
+            img_array = np.zeros((3, h*20, w*20), dtype=np.uint8)
+            # 简单放大矩阵并映射到蓝色通道
+            matrix_resized = np.repeat(np.repeat(matrix, 20, axis=0), 20, axis=1)
+            img_array[2] = (matrix_resized * 255).astype(np.uint8)
+        
+        return img_array
+        
+    except Exception as e:
+        print(f"Warning: 热力图生成失败: {e}, 使用回退方案")
+        # 终极回退：返回空白图像
+        return np.zeros((3, 100, 100), dtype=np.uint8)
+
+# 保留原始函数作为回退
+def create_heatmap_with_values(matrix, task_ids, title="Task-Expert Selection Frequencies"):
+    """创建带数值标注的蓝色系热力图 - 原始版本（回退用）"""
+    fig, ax = plt.subplots(figsize=(max(8, matrix.shape[1]), max(6, matrix.shape[0])))
+    
+    # 使用蓝色系颜色映射
+    sns.heatmap(matrix, 
+                annot=True,  # 显示数值
+                fmt='.3f',   # 数值格式
+                cmap='Blues',  # 蓝色系
+                ax=ax,
+                cbar_kws={'label': 'Selection Frequency'},
+                xticklabels=[f'Expert{i}' for i in range(matrix.shape[1])],
+                yticklabels=[f'Task{tid}' for tid in task_ids])
+    
+    ax.set_title(title, fontsize=14, pad=20)
+    ax.set_xlabel('Experts', fontsize=12)
+    ax.set_ylabel('Tasks', fontsize=12)
+    
+    plt.tight_layout()
+    
+    # 保存到BytesIO
+    buf = BytesIO()
+    plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
+    buf.seek(0)
+    
+    # 转换为numpy数组用于tensorboard
+    img = Image.open(buf)
+    img_array = np.array(img)
+    buf.close()
+    plt.close(fig)
+    
+    # 转换为CHW格式 (Channel, Height, Width)
+    if len(img_array.shape) == 3:
+        img_array = img_array.transpose(2, 0, 1)
+    
+    return img_array
+
+
+def log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter):
+    """记录每个任务的详细专家选择统计"""
+    for i, task_id in enumerate(valid_task_ids):
+        frequencies = matrix[i]
+        stats = merged_stats[task_id][window_type]
+        
+        # 记录每个专家的选择频率
+        # for expert_id, freq in enumerate(frequencies):
+        #     tb_logger.add_scalar(
+        #         f'MOE_Details/Task{task_id}_{window_type}/Expert{expert_id}_Frequency',
+        #         float(freq), global_step=train_iter
+        #     )
+        
+        # 计算并记录该任务选择专家的熵（均匀性指标）
+        task_frequencies = np.array(frequencies)
+        task_frequencies = task_frequencies + 1e-8  # 避免log(0)
+        task_entropy = -np.sum(task_frequencies * np.log(task_frequencies))
+        tb_logger.add_scalar(
+            f'MOE_Details/Task{task_id}_{window_type}/ExpertSelectionEntropy',
+            task_entropy, global_step=train_iter
+        )
+        
+        # 记录该任务专家选择的方差（分散程度）
+        expert_variance = np.var(task_frequencies)
+        tb_logger.add_scalar(
+            f'MOE_Details/Task{task_id}_{window_type}/ExpertSelectionVariance',
+            expert_variance, global_step=train_iter
+        )
+        
+        # 记录任务级别的汇总统计
+        tb_logger.add_scalar(
+            f'MOE_Details/Task{task_id}_{window_type}/TotalSelections',
+            stats['total_selections'], global_step=train_iter
+        )
+        tb_logger.add_scalar(
+            f'MOE_Details/Task{task_id}_{window_type}/DataPoints',
+            stats['data_points'], global_step=train_iter
+        )
+
+
+def log_global_moe_statistics(tb_logger, matrix, window_type, valid_task_ids, train_iter):
+    """记录全局MOE统计信息"""
+    # 记录基本信息
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/NumActiveTasks',
+        len(valid_task_ids), global_step=train_iter
+    )
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/NumExperts', 
+        matrix.shape[1], global_step=train_iter
+    )
+    
+    # 计算专家使用均匀性
+    expert_avg_usage = np.mean(matrix, axis=0)  # 每个专家的平均使用频率
+    usage_entropy = -np.sum(expert_avg_usage * np.log(expert_avg_usage + 1e-8))
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/ExpertUsageEntropy',
+        usage_entropy, global_step=train_iter
+    )
+    
+    # 记录最常用和最少用的专家
+    most_used_expert = np.argmax(expert_avg_usage)
+    least_used_expert = np.argmin(expert_avg_usage)
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/MostUsedExpert',
+        most_used_expert, global_step=train_iter
+    )
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/LeastUsedExpert', 
+        least_used_expert, global_step=train_iter
+    )
+
+
+def process_and_log_moe_heatmaps_fast(tb_logger, merged_stats, window_type, train_iter):
+    """
+    高效处理和记录MOE热力图 - 优化版本
+    
+    优化点:
+    1. 向量化数据处理，减少循环
+    2. 使用高效的热力图生成函数
+    3. 条件性热力图生成
+    4. 批量处理统计数据
+    """
+    # 快速筛选有效任务
+    valid_task_data = [(tid, stats[window_type]['frequencies']) 
+                      for tid, stats in merged_stats.items() 
+                      if window_type in stats]
+    
+    if not valid_task_data:
+        return
+    
+    # 向量化构建矩阵
+    valid_task_ids, frequencies_list = zip(*valid_task_data)
+    matrix = np.array(frequencies_list)
+    
+    # 条件性热力图生成：小矩阵才生成热力图
+    if matrix.size <= 200:  # 只有在任务数*专家数 <= 200时才生成热力图
+        try:
+            heatmap_img = create_heatmap_with_values_fast(
+                matrix, valid_task_ids, 
+                f'MOE {window_type} Task-Expert Selection'
+            )
+            
+            # 记录热力图到tensorboard
+            tb_logger.add_image(
+                f'MOE_Heatmap/{window_type}_TaskExpert_Heatmap',
+                heatmap_img,
+                global_step=train_iter,
+                dataformats='CHW'
+            )
+        except Exception as e:
+            print(f"Warning: 热力图生成失败: {e}")
+    
+    # 始终记录统计数据（轻量级操作）
+    log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter)
+    log_global_moe_statistics(tb_logger, matrix, window_type, valid_task_ids, train_iter)
+
+# 保留原始函数作为回退
+def process_and_log_moe_heatmaps(tb_logger, merged_stats, window_type, train_iter):
+    """处理和记录MOE热力图 - 原始版本（回退用）"""
+    all_task_ids = sorted(merged_stats.keys())
+    task_expert_matrix = []
+    valid_task_ids = []
+    
+    # 收集有效任务的频率数据
+    for task_id in all_task_ids:
+        if window_type in merged_stats[task_id]:
+            frequencies = merged_stats[task_id][window_type]['frequencies']
+            task_expert_matrix.append(frequencies)
+            valid_task_ids.append(task_id)
+    
+    if not task_expert_matrix:
+        return
+    
+    # 转换为numpy矩阵 (num_tasks, num_experts)
+    matrix = np.array(task_expert_matrix)
+    
+    # 创建带数值标注的蓝色系热力图
+    heatmap_img = create_heatmap_with_values(
+        matrix, valid_task_ids, 
+        f'MOE {window_type} Task-Expert Selection Frequencies'
+    )
+    
+    # 记录热力图到tensorboard
+    tb_logger.add_image(
+        f'MOE_Heatmap/{window_type}_TaskExpert_Heatmap',
+        heatmap_img,
+        global_step=train_iter,
+        dataformats='CHW'
+    )
+    
+    # 记录详细统计和全局统计
+    log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter)
+
+
+def convert_stats_to_serializable(moe_stats):
+    """将MOE统计数据中的tensor转换为可序列化的numpy格式"""
+    if not moe_stats:
+        return {}
+    
+    converted = {}
+    for task_id, task_stats in moe_stats.items():
+        converted[task_id] = {}
+        for window_type, stats in task_stats.items():
+            if stats and 'frequencies' in stats:
+                converted[task_id][window_type] = {
+                    'frequencies': stats['frequencies'].cpu().numpy().tolist(),
+                    'total_selections': stats['total_selections'],
+                    'data_points': stats['data_points']
+                }
+    return converted
+
+
+def gather_distributed_moe_stats(local_stats, world_size):
+    """分布式环境下汇总所有GPU的MOE统计数据"""
+    all_stats = [None for _ in range(world_size)]
+    try:
+        dist.all_gather_object(all_stats, local_stats)
+        return all_stats
+    except Exception as e:
+        print(f"分布式MOE统计汇总失败: {e}")
+        return [local_stats]  # fallback到本地统计
+
+
+def collect_and_log_moe_statistics(policy, tb_logger, train_iter, world_size, rank):
+    """
+    收集并记录MOE专家选择统计信息，包括热力图和分布分析
+    
+    Args:
+        policy: 训练策略对象，包含世界模型
+        tb_logger: TensorBoard日志记录器
+        train_iter: 当前训练迭代次数
+        world_size: 分布式训练的总GPU数量
+        rank: 当前GPU的rank
+    """
+    try:
+        # Step 1: 从policy的transformer模型中获取MOE统计
+        moe_stats = None
+        
+        transformer = policy._model.world_model.transformer
+        if hasattr(transformer, 'get_expert_selection_stats'):
+            moe_stats = transformer.get_expert_selection_stats()
+        
+        if moe_stats is None:
+            print(f"Rank {rank}: 警告: 无法获取MOE统计数据，train_iter={train_iter}")
+            return
+        
+        # Step 2: 转换tensor数据为可序列化格式
+        serializable_stats = convert_stats_to_serializable(moe_stats)
+        
+        print(f"Rank {rank}: 本地MOE统计 - 任务数: {len(serializable_stats)}, train_iter={train_iter}")
+        
+        # Step 3: 分布式汇总所有GPU的统计数据
+        all_expert_stats = gather_distributed_moe_stats(serializable_stats, world_size)
+        
+        # Step 4: 合并统计数据
+        merged_stats = merge_expert_stats_across_ranks(all_expert_stats)
+        
+        if not merged_stats:
+            print(f"Rank {rank}: 警告: 合并后的MOE统计为空，train_iter={train_iter}")
+            return
+        
+        # Step 5: 所有GPU都记录MOE统计，每个GPU记录自己的日志
+        print(f"Rank {rank}: 开始记录MOE统计 - 合并任务数: {len(merged_stats)}, train_iter={train_iter}")
+        
+        # 为每个时间窗口生成热力图和统计
+        for window_type in ['immediate', 'short', 'medium', 'long']:
+            if any(window_type in task_stats for task_stats in merged_stats.values()):
+                process_and_log_moe_heatmaps_fast(tb_logger, merged_stats, window_type, train_iter)
+        
+        # 记录总体MOE使用情况
+        tb_logger.add_scalar('MOE_Global/ActiveTasks', len(merged_stats), global_step=train_iter)
+        
+        # Step 6: 新增分布差异计算和记录（包含去对角线热力图）
+        if any('immediate' in task_stats for task_stats in merged_stats.values()):
+            print(f"Rank {rank}: 开始计算任务间分布差异...")
+            collect_and_log_divergences_with_heatmaps(tb_logger, merged_stats, train_iter)
+        
+        print(f"Rank {rank}: MOE统计记录完成，train_iter={train_iter}")
     
+    except Exception as e:
+        print(f"Rank {rank}: MOE统计收集失败 - {e}, train_iter={train_iter}")
+        import traceback
+        traceback.print_exc()
+
 import concurrent.futures
+
+# ====== GPU优化的分布差异计算和可视化函数 ======
+def jensen_shannon_divergence_batch_gpu(distributions_tensor):
+    """
+    GPU批量计算JS散度矩阵 - 完全向量化，无循环
+    
+    Args:
+        distributions_tensor: shape (n_tasks, n_experts), GPU张量
+    
+    Returns:
+        js_matrix: shape (n_tasks, n_tasks), 对称矩阵
+    """
+    device = distributions_tensor.device
+    n_tasks, n_experts = distributions_tensor.shape
+    
+    # 1. 归一化为概率分布
+    eps = 1e-8
+    distributions_tensor = distributions_tensor / (distributions_tensor.sum(dim=1, keepdim=True) + eps)
+    
+    # 2. 使用广播计算所有任务对的平均分布
+    # P_i: (n_tasks, 1, n_experts), P_j: (1, n_tasks, n_experts)
+    P_i = distributions_tensor.unsqueeze(1)  
+    P_j = distributions_tensor.unsqueeze(0)  
+    M = 0.5 * (P_i + P_j)  # shape: (n_tasks, n_tasks, n_experts)
+    
+    # 3. 批量计算KL散度 - 完全向量化
+    # KL(P_i || M) for all pairs
+    log_ratio_i = torch.log((P_i + eps) / (M + eps))
+    kl_i_m = torch.sum(P_i * log_ratio_i, dim=2)  # (n_tasks, n_tasks)
+    
+    # KL(P_j || M) for all pairs  
+    log_ratio_j = torch.log((P_j + eps) / (M + eps))
+    kl_j_m = torch.sum(P_j * log_ratio_j, dim=2)  # (n_tasks, n_tasks)
+    
+    # 4. JS散度矩阵
+    js_matrix = 0.5 * (kl_i_m + kl_j_m)
+    
+    return js_matrix
+
+
+def wasserstein_distance_batch_gpu(distributions_tensor):
+    """
+    GPU批量计算Wasserstein距离矩阵 - 1D分布的高效实现
+    
+    Args:
+        distributions_tensor: shape (n_tasks, n_experts), GPU张量
+    
+    Returns:
+        wasserstein_matrix: shape (n_tasks, n_tasks), 对称矩阵
+    """
+    device = distributions_tensor.device
+    n_tasks, n_experts = distributions_tensor.shape
+    eps = 1e-8
+    
+    # 1. 归一化为概率分布
+    distributions_tensor = distributions_tensor / (distributions_tensor.sum(dim=1, keepdim=True) + eps)
+    
+    # 2. 计算累积分布函数 (CDF)
+    cdf_tensor = torch.cumsum(distributions_tensor, dim=1)  # (n_tasks, n_experts)
+    
+    # 3. 使用广播计算所有CDF对之间的L1距离
+    cdf_i = cdf_tensor.unsqueeze(1)  # (n_tasks, 1, n_experts)
+    cdf_j = cdf_tensor.unsqueeze(0)  # (1, n_tasks, n_experts)
+    
+    # Wasserstein距离 = 累积分布差异的L1范数
+    wasserstein_matrix = torch.sum(torch.abs(cdf_i - cdf_j), dim=2)
+    
+    return wasserstein_matrix
+
+
+def compute_distribution_divergences_optimized(merged_stats, window_type='immediate'):
+    """
+    GPU优化版本 - 高效分布差异计算
+    """
+    # 1. 数据预处理
+    valid_tasks = [(tid, stats[window_type]['frequencies']) 
+                  for tid, stats in merged_stats.items() 
+                  if window_type in stats]
+    
+    if len(valid_tasks) < 2:
+        return {}
+    
+    task_ids, frequencies_list = zip(*valid_tasks)
+    
+    # 2. 高效张量转换
+    try:
+        if isinstance(frequencies_list[0], torch.Tensor):
+            frequencies_tensor = torch.stack(frequencies_list)
+        else:
+            frequencies_tensor = torch.tensor(
+                np.array(frequencies_list), 
+                dtype=torch.float32
+            )
+        
+        # 自动GPU加速
+        if torch.cuda.is_available():
+            frequencies_tensor = frequencies_tensor.cuda()
+            
+    except Exception as e:
+        print(f"GPU转换失败，使用CPU: {e}")
+        frequencies_tensor = torch.tensor(np.array(frequencies_list), dtype=torch.float32)
+    
+    device = frequencies_tensor.device
+    n_tasks, n_experts = frequencies_tensor.shape
+    
+    # 3. GPU批量计算（无循环）
+    with torch.no_grad():
+        # 批量计算JS散度和Wasserstein距离
+        js_matrix = jensen_shannon_divergence_batch_gpu(frequencies_tensor)
+        wasserstein_matrix = wasserstein_distance_batch_gpu(frequencies_tensor)
+        
+        # 高效提取上三角值（避免重复计算）
+        triu_indices = torch.triu_indices(n_tasks, n_tasks, offset=1, device=device)
+        js_values = js_matrix[triu_indices[0], triu_indices[1]]
+        wasserstein_values = wasserstein_matrix[triu_indices[0], triu_indices[1]]
+        
+        # 统计计算（向量化）
+        js_stats = {
+            'avg': torch.mean(js_values).item(),
+            'max': torch.max(js_values).item(),
+            'min': torch.min(js_values).item(),
+            'std': torch.std(js_values).item()
+        }
+        
+        wasserstein_stats = {
+            'avg': torch.mean(wasserstein_values).item(),
+            'max': torch.max(wasserstein_values).item(), 
+            'min': torch.min(wasserstein_values).item(),
+            'std': torch.std(wasserstein_values).item()
+        }
+    
+    return {
+        'task_ids': task_ids,
+        'n_tasks': n_tasks,
+        'n_experts': n_experts,
+        'device': str(device),
+        'gpu_accelerated': 'cuda' in str(device),
+        
+        # 返回CPU版本用于记录
+        'js_matrix': js_matrix.cpu().numpy(),
+        'wasserstein_matrix': wasserstein_matrix.cpu().numpy(),
+        'js_stats': js_stats,
+        'wasserstein_stats': wasserstein_stats
+    }
+
+
+def create_similarity_heatmap_no_diagonal(similarity_matrix, task_ids, metric_name, title_suffix=""):
+    """
+    创建任务相似度热力图 - 去掉对角线部分
+    
+    Args:
+        similarity_matrix: 相似度矩阵 (n_tasks, n_tasks)
+        task_ids: 任务ID列表
+        metric_name: 指标名称 ('js_divergence', 'wasserstein_distance')
+        title_suffix: 标题后缀
+    """
+    try:
+        # 复制矩阵避免修改原数据
+        matrix = similarity_matrix.copy()
+        
+        # 将对角线设置为NaN，这样matplotlib会显示为空白
+        np.fill_diagonal(matrix, np.nan)
+        
+        figsize = (max(6, len(task_ids)), max(4, len(task_ids)))
+        fig, ax = plt.subplots(figsize=figsize)  # 创建新figure避免复用问题
+        
+        # 根据指标类型选择颜色映射
+        if 'js' in metric_name.lower():
+            cmap = 'Reds'
+            title_name = 'JS Divergence'
+            vmin, vmax = 0, 1.0
+        else:  # wasserstein
+            cmap = 'Blues'  
+            title_name = 'Wasserstein Distance'
+            vmin, vmax = None, None  # 自适应
+        
+        # 使用masked数组处理NaN值，对角线显示为白色
+        masked_matrix = np.ma.masked_invalid(matrix)
+        im = ax.imshow(masked_matrix, cmap=cmap, vmin=vmin, vmax=vmax, aspect='auto')
+        
+        # 添加数值标注（跳过对角线）
+        if len(task_ids) <= 15:  # 只在任务数较少时添加标注
+            for i in range(len(task_ids)):
+                for j in range(len(task_ids)):
+                    if i != j:  # 跳过对角线
+                        value = matrix[i, j]
+                        if not np.isnan(value):
+                            threshold = (vmax or np.nanmax(matrix)) * 0.5 if vmax else np.nanmax(matrix) * 0.5
+                            color = 'white' if value > threshold else 'black'
+                            ax.text(j, i, f'{value:.3f}', ha='center', va='center', 
+                                   color=color, fontsize=8)
+        
+        # 设置标签
+        ax.set_xticks(range(len(task_ids)))
+        ax.set_yticks(range(len(task_ids)))
+        ax.set_xticklabels([f'T{tid}' for tid in task_ids], fontsize=9)
+        ax.set_yticklabels([f'T{tid}' for tid in task_ids], fontsize=9)
+        ax.set_title(f'Task {title_name} Matrix {title_suffix} (No Diagonal)', fontsize=12)
+        ax.set_xlabel('Tasks', fontsize=10)
+        ax.set_ylabel('Tasks', fontsize=10)
+        
+        # 添加colorbar
+        plt.colorbar(im, ax=ax, label=title_name, shrink=0.8)
+        
+        # 转换为图像数组 - 修复matplotlib版本兼容性
+        fig.canvas.draw()
+        
+        try:
+            # 新版matplotlib使用buffer_rgba
+            if hasattr(fig.canvas, 'buffer_rgba'):
+                buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
+                h, w = fig.canvas.get_width_height()
+                img_array = buf.reshape(h, w, 4)[:, :, :3]  # 去掉alpha通道
+            else:
+                # 旧版matplotlib回退方案
+                buf = fig.canvas.print_to_string()
+                img_array = np.frombuffer(buf, dtype=np.uint8)
+                h, w = fig.canvas.get_width_height()
+                img_array = img_array.reshape(h, w, 3)
+        except Exception as conv_e:
+            print(f"图像转换方法失败: {conv_e}, 尝试PIL方案")
+            # 最终回退：通过PIL转换
+            from io import BytesIO
+            buf = BytesIO()
+            fig.savefig(buf, format='png', dpi=100, bbox_inches='tight')
+            buf.seek(0)
+            from PIL import Image
+            img = Image.open(buf)
+            img_array = np.array(img)[:, :, :3]  # 去掉alpha通道
+            buf.close()
+        
+        img_array = img_array.transpose(2, 0, 1)  # CHW格式
+        plt.close(fig)  # 关闭figure避免内存泄漏
+        
+        return img_array
+        
+    except Exception as e:
+        print(f"Warning: 无对角线热力图生成失败: {e}")
+        return np.zeros((3, 100, 100), dtype=np.uint8)
+
+
+def log_pairwise_optimized(tb_logger, divergence_data, train_iter):
+    """
+    优化的任务对记录 - 批量处理
+    """
+    task_ids = divergence_data['task_ids']
+    js_matrix = divergence_data['js_matrix']
+    wasserstein_matrix = divergence_data['wasserstein_matrix']
+    
+    # 批量构建任务对指标字典
+    pairwise_scalars = {}
+    
+    for i, task_i in enumerate(task_ids):
+        for j, task_j in enumerate(task_ids):
+            if i < j:  # 只记录上三角
+                # 构建指标名称
+                js_key = f'TaskPairwise/Immediate_Task{task_i}_Task{task_j}_JS_Divergence'
+                wass_key = f'TaskPairwise/Immediate_Task{task_i}_Task{task_j}_Wasserstein_Distance'
+                
+                pairwise_scalars[js_key] = js_matrix[i, j]
+                pairwise_scalars[wass_key] = wasserstein_matrix[i, j]
+    
+    # 批量写入TensorBoard
+    for key, value in pairwise_scalars.items():
+        tb_logger.add_scalar(key, float(value), global_step=train_iter)
+
+
+def log_divergences_with_heatmaps(tb_logger, divergence_data, train_iter):
+    """
+    记录分布差异指标和热力图（去掉对角线）
+    """
+    if not divergence_data:
+        return
+    
+    js_stats = divergence_data['js_stats']
+    wasserstein_stats = divergence_data['wasserstein_stats']
+    task_ids = divergence_data['task_ids']
+    n_tasks = divergence_data['n_tasks']
+    
+    # 调试：检查矩阵数据
+    js_matrix = divergence_data['js_matrix']
+    wasserstein_matrix = divergence_data['wasserstein_matrix']
+    print(f"DEBUG: JS矩阵形状={js_matrix.shape}, 范围=[{np.min(js_matrix):.6f}, {np.max(js_matrix):.6f}]")
+    print(f"DEBUG: Wasserstein矩阵形状={wasserstein_matrix.shape}, 范围=[{np.min(wasserstein_matrix):.6f}, {np.max(wasserstein_matrix):.6f}]")
+    
+    # 1. 记录标量指标
+    scalar_dict = {
+        'MOE_Divergence/Immediate_AvgJS_Divergence': js_stats['avg'],
+        'MOE_Divergence/Immediate_MaxJS_Divergence': js_stats['max'],
+        'MOE_Divergence/Immediate_AvgWasserstein_Distance': wasserstein_stats['avg'],
+        'MOE_Divergence/Immediate_MaxWasserstein_Distance': wasserstein_stats['max'],
+    }
+    
+    for key, value in scalar_dict.items():
+        tb_logger.add_scalar(key, value, global_step=train_iter)
+    
+    # 1.1 打印核心指标到控制台
+    print("=" * 65)
+    print(f" 任务间分布差异统计 (Iteration: {train_iter})")
+    print("=" * 65)
+    print(f"参与任务数量: {n_tasks} | 任务ID: {list(task_ids)}")
+    print(f"计算设备: {divergence_data.get('device', 'Unknown')} | GPU加速: {'启用' if divergence_data.get('gpu_accelerated', False) else '禁用'}")
+    print("-" * 65)
+    print("JS散度 (Jensen-Shannon Divergence):")
+    print(f"  平均值: {js_stats['avg']:.6f}  |  最大值: {js_stats['max']:.6f}")
+    print(f"  最小值: {js_stats['min']:.6f}  |  标准差: {js_stats['std']:.6f}")
+    print("-" * 65)
+    print("Wasserstein距离:")
+    print(f"  平均值: {wasserstein_stats['avg']:.6f}  |  最大值: {wasserstein_stats['max']:.6f}")
+    print(f"  最小值: {wasserstein_stats['min']:.6f}  |  标准差: {wasserstein_stats['std']:.6f}")
+    print("=" * 65)
+    
+    # 2. 记录去掉对角线的相似度矩阵热力图
+    task_ids = divergence_data['task_ids']
+    n_tasks = divergence_data['n_tasks']
+    
+    if n_tasks <= 25:  # 限制矩阵大小避免过大热力图
+        try:
+            # JS散度矩阵热力图（无对角线）
+            js_heatmap = create_similarity_heatmap_no_diagonal(
+                divergence_data['js_matrix'], 
+                task_ids, 
+                'js_divergence',
+                f'(Immediate-{n_tasks} tasks)'
+            )
+            tb_logger.add_image(
+                'TaskSimilarity/Immediate_JS_Matrix_NoDiagonal',
+                js_heatmap,
+                global_step=train_iter,
+                dataformats='CHW'
+            )
+            
+            # Wasserstein距离矩阵热力图（无对角线）
+            wass_heatmap = create_similarity_heatmap_no_diagonal(
+                divergence_data['wasserstein_matrix'], 
+                task_ids, 
+                'wasserstein_distance',
+                f'(Immediate-{n_tasks} tasks)'
+            )
+            tb_logger.add_image(
+                'TaskSimilarity/Immediate_Wasserstein_Matrix_NoDiagonal',
+                wass_heatmap,
+                global_step=train_iter,
+                dataformats='CHW'
+            )
+            
+        except Exception as e:
+            print(f"Warning: 相似度矩阵热力图生成失败: {e}")
+    
+    # 3. 记录任务对指标（可选）
+    if n_tasks <= 20:
+        log_pairwise_optimized(tb_logger, divergence_data, train_iter)
+
+
+def collect_and_log_divergences_with_heatmaps(tb_logger, merged_stats, train_iter):
+    """
+    完整的分布差异计算和记录（包含无对角线热力图）
+    """
+    try:
+        # GPU优化计算
+        divergence_data = compute_distribution_divergences_optimized(merged_stats, 'immediate')
+        
+        if not divergence_data:
+            print(f"跳过分布差异计算 - 任务数不足 (需要>=2个任务)")
+            return
+        
+        # 记录指标和热力图
+        log_divergences_with_heatmaps(tb_logger, divergence_data, train_iter)
+        
+        # 汇总打印
+        print(f">> 分布差异统计已完成并记录到TensorBoard")
+        if divergence_data.get('n_tasks', 0) <= 25:
+            print(f">> 相似度矩阵热力图已生成 (去除对角线)")
+        if divergence_data.get('n_tasks', 0) <= 20:
+            print(f">> 任务对详细指标已记录")
+        print()  # 空行分隔
+        
+    except Exception as e:
+        print(f"ERROR: 分布差异计算失败 - {e}")
+        import traceback
+        traceback.print_exc()
+
 # ====== UniZero-MT 归一化所需基准分数 (26 Atari100k task_id 对应索引) ======
 # 原始的 RANDOM_SCORES 和 HUMAN_SCORES
 
@@ -360,6 +1158,7 @@ def compute_task_weights(
 
     return weights
 
+a=1
 def train_unizero_multitask_segment_ddp(
         input_cfg_list: List[Tuple[int, Tuple[dict, dict]]],
         seed: int = 0,
@@ -367,7 +1166,9 @@ def train_unizero_multitask_segment_ddp(
         model_path: Optional[str] = None,
         max_train_iter: Optional[int] = int(1e10),
         max_env_step: Optional[int] = int(1e10),
-        benchmark_name: str = "atari"  
+        benchmark_name: str = "atari",
+        finetune_components=[],
+        cal_moe_profile: bool = False  # 新增：控制MOE性能监控的开关
 ) -> 'Policy':
     """
     Overview:
@@ -467,6 +1268,16 @@ def train_unizero_multitask_segment_ddp(
     # 获取当前进程的rank和总进程数
     rank = get_rank()
     world_size = get_world_size()
+    
+    # 初始化MOE统计性能监控
+    moe_profiler = None
+    if cal_moe_profile and LineProfiler is not None:
+        moe_profiler = LineProfiler()
+        moe_profiler.add_function(collect_and_log_moe_statistics)
+        moe_profiler.enable_by_count()
+        print(f"Rank {rank}: MOE统计性能监控已启用")
+    elif cal_moe_profile and LineProfiler is None:
+        print(f"Rank {rank}: 警告: line_profiler未安装，无法启用MOE性能监控")
 
     # 任务划分
     total_tasks = len(input_cfg_list)
@@ -521,19 +1332,27 @@ def train_unizero_multitask_segment_ddp(
         # 编译配置
         cfg = compile_config(cfg, seed=seed, env=None, auto=True, create_cfg=create_cfg, save_cfg=True)
         # 创建共享的policy
-        policy = create_policy(cfg.policy, model=model, enable_field=['learn', 'collect', 'eval'])
+        
+        # print("===============================")
+        # exit()
+        # 创建TensorBoard日志记录器
+        log_dir = os.path.join('./{}/log'.format(cfg.exp_name), f'serial_rank_{rank}')
+        # global tb_logger
+        tb_logger = SummaryWriter(log_dir)
+        
+        cfg.policy.logger=tb_logger
+        
+        policy = create_policy(cfg.policy, model=model, enable_field=['learn', 'collect', 'eval']) # MOE
 
         # 加载预训练模型（如果提供）
         if model_path is not None:
             logging.info(f'开始加载模型: {model_path}')
-            policy.learn_mode.load_state_dict(torch.load(model_path, map_location=cfg.policy.device))
+            policy.learn_mode.load_state_dict(torch.load(model_path, map_location=cfg.policy.device),finetune_components=finetune_components)
             logging.info(f'完成加载模型: {model_path}')
+       
 
-        # 创建TensorBoard日志记录器
-        log_dir = os.path.join('./{}/log'.format(cfg.exp_name), f'serial_rank_{rank}')
-        tb_logger = SummaryWriter(log_dir)
-
-        # 创建共享的learner
+        # 创建共享的learner  #todo: cfg.policy.learn.learner.hook.log_show_after_iter
+        cfg.policy.learn.learner.hook.log_show_after_iter=100
         learner = BaseLearner(cfg.policy.learn.learner, policy.learn_mode, tb_logger, exp_name=cfg.exp_name)
 
         policy_config = cfg.policy
@@ -589,7 +1408,7 @@ def train_unizero_multitask_segment_ddp(
     # 调用learner的before_run钩子
     learner.call_hook('before_run')
     value_priority_tasks = {}
-
+    
     buffer_reanalyze_count = 0
     train_epoch = 0
     reanalyze_batch_size = cfg.policy.reanalyze_batch_size
@@ -645,6 +1464,7 @@ def train_unizero_multitask_segment_ddp(
             # if learner.train_iter > 10 and evaluator.should_eval(learner.train_iter): # only for debug
             # if evaluator.should_eval(learner.train_iter):
                 print('=' * 20)
+                
                 print(f'Rank {rank} 评估任务_id: {cfg.policy.task_id}...')
 
                 # =========TODO=========
@@ -720,7 +1540,7 @@ def train_unizero_multitask_segment_ddp(
         print(f"not_enough_data:{not_enough_data}")
         # 获取当前温度
         current_temperature_task_weight = temperature_scheduler.get_temperature(learner.train_iter)
-
+        
         # if learner.train_iter == 0 or learner.train_iter % cfg.policy.eval_freq == 0 :
         if learner.train_iter > 10 and learner.train_iter % cfg.policy.eval_freq == 0 :
         
@@ -810,7 +1630,71 @@ def train_unizero_multitask_segment_ddp(
 
                     # 在训练时，DDP会自动同步梯度和参数
                     log_vars = learner.train(train_data_multi_task, envstep_multi_task, policy_kwargs=learn_kwargs)
-
+                    
+                    print("训练结束！！！")
+                    
+                    # +++++++++++++++++++++++++++++++++ MOE专家选择统计记录 +++++++++++++++++++++++++++++++++
+                    # if cfg.policy.model.world_model_cfg.multiplication_moe_in_transformer and cfg.policy.model.world_model_cfg.num_experts_of_moe_in_transformer:
+                    #     # 控制MoE统计记录频率
+                    #     moe_log_interval = getattr(cfg.policy, 'moe_log_interval', 500)  # 默认每500个iter记录一次
+                        
+                    #     if learner.train_iter % moe_log_interval == 0:
+                    #         # # 性能监控开始
+                    #         # if cal_moe_profile:
+                    #         #     import time
+                    #         #     moe_start_time = time.perf_counter()
+                            
+                    #         collect_and_log_moe_statistics(policy, tb_logger, learner.train_iter, world_size, rank)
+                            
+                    #         if rank == 0:  # 只在rank 0打印日志
+                    #             print(f"MoE统计已记录 (train_iter={learner.train_iter})")
+                        
+                    #     # global a
+                    #     # a+=1
+                    #     # 性能监控结束
+                    #     if cal_moe_profile :
+                            
+                    #         if moe_profiler is not None:
+                    #             try:
+                    #                 # 禁用profiler
+                    #                 moe_profiler.disable_by_count()
+                                    
+                    #                 # 生成性能分析报告文件名
+                    #                 profile_filename = f'moe_profile_rank{rank}_train{learner.train_iter}.txt'
+                    #                 profile_path = os.path.join(cfg.exp_name, 'profile', profile_filename)
+                                    
+                    #                 # 确保目录存在
+                    #                 os.makedirs(os.path.dirname(profile_path), exist_ok=True)
+                                    
+                    #                 # 保存性能分析结果到文件
+                    #                 with open(profile_path, 'w') as f:
+                    #                     moe_profiler.print_stats(stream=f)
+                                    
+                    #                 print(f"Rank {rank}: MOE性能分析结果已保存到 {profile_path}")
+                                    
+                    #                 # 也输出到控制台（可选，用于调试）
+                    #                 if rank == 0:  # 只在rank 0输出到控制台，避免混乱
+                    #                     print(f"\n=== Rank {rank}: MOE性能分析摘要 ===")
+                    #                     moe_profiler.print_stats()
+                    #                     print("=" * 50)
+                                        
+                    #             except Exception as e:
+                    #                 print(f"Rank {rank}: 保存MOE性能分析失败: {e}")
+                            
+                            
+                            
+                    #         # moe_end_time = time.perf_counter()
+                    #         # moe_elapsed = (moe_end_time - moe_start_time) * 1000  # 转换为毫秒
+                            
+                    #         # 记录性能指标
+                    #         # tb_logger.add_scalar('Performance/MOE_Statistics_Time_ms', moe_elapsed, global_step=learner.train_iter)
+                            
+                    #         # 打印性能信息（每10次迭代打印一次，避免日志过多）
+                    #         # if learner.train_iter % 10 == 0:
+                    #         #     print(f"Rank {rank}: MOE统计耗时 {moe_elapsed:.2f}ms (train_iter={learner.train_iter})")
+                        
+                    # +++++++++++++++++++++++++++++++++ MOE专家选择统计记录结束 +++++++++++++++++++++++++++++++++
+                    
                     # logging.error(f'Rank {rank}: one learn step done')
 
                     # 判断是否需要计算task_exploitation_weight
@@ -930,4 +1814,7 @@ def train_unizero_multitask_segment_ddp(
 
     # 调用learner的after_run钩子
     learner.call_hook('after_run')
+    
+    # 保存MOE性能监控结果
+    
     return policy
\ No newline at end of file
diff --git a/lzero/entry/utils.py b/lzero/entry/utils.py
index b51eb7f11..97d580019 100644
--- a/lzero/entry/utils.py
+++ b/lzero/entry/utils.py
@@ -1,4 +1,5 @@
 import os
+import time
 from typing import Optional, Callable, Union, List, Tuple
 
 import psutil
@@ -362,3 +363,1005 @@ def log_buffer_run_time(train_iter: int, buffer: "GameBuffer", writer: SummaryWr
 
         # Reset the time records in the buffer.
         buffer.reset_runtime_metrics()
+
+
+# ==================== MoE TensorBoard 记录模块 =============================
+# 导入必要的模块
+import seaborn as sns
+from io import BytesIO
+from PIL import Image
+import concurrent.futures
+
+# 全局图像缓存，避免重复创建 figure
+_GLOBAL_HEATMAP_FIG = None
+_GLOBAL_HEATMAP_AX = None
+
+def _get_or_create_heatmap_figure(figsize):
+    """获取或创建复用的 heatmap figure"""
+    global _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX
+    if _GLOBAL_HEATMAP_FIG is None:
+        _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX = plt.subplots(figsize=figsize)
+    else:
+        # 清除之前的内容
+        _GLOBAL_HEATMAP_AX.clear()
+        # 调整图像大小
+        _GLOBAL_HEATMAP_FIG.set_size_inches(figsize)
+    return _GLOBAL_HEATMAP_FIG, _GLOBAL_HEATMAP_AX
+
+def create_heatmap_with_values_fast(matrix, task_ids, title="Task-Expert Selection Frequencies"):
+    """
+    高效创建带数值标注的蓝色系热力图 - 优化版本
+    
+    优化点:
+    1. 复用 matplotlib figure，减少内存分配
+    2. 大矩阵跳过数值标注，避免性能损失
+    3. 优化图像转换流程
+    4. 使用更低的 DPI 减少计算量
+    """
+    try:
+        figsize = (max(6, matrix.shape[1]), max(4, matrix.shape[0]))
+        fig, ax = _get_or_create_heatmap_figure(figsize)
+        
+        # 智能选择是否显示数值标注
+        show_annot = matrix.size <= 64  # 只在 8x8 或更小时显示数值
+        
+        # 使用 matplotlib 直接绘制，避免 seaborn 的额外开销
+        im = ax.imshow(matrix, cmap='Blues', aspect='auto')
+        
+        # 有选择性地添加数值标注
+        if show_annot:
+            for i in range(matrix.shape[0]):
+                for j in range(matrix.shape[1]):
+                    value = matrix[i, j]
+                    color = 'white' if value > 0.5 else 'black'
+                    ax.text(j, i, f'{value:.3f}', ha='center', va='center', 
+                           color=color, fontsize=8)
+        
+        # 设置标签和标题
+        ax.set_xticks(range(matrix.shape[1]))
+        ax.set_yticks(range(matrix.shape[0]))
+        ax.set_xticklabels([f'E{i}' for i in range(matrix.shape[1])], fontsize=10)
+        ax.set_yticklabels([f'T{tid}' for tid in task_ids], fontsize=10)
+        ax.set_title(title, fontsize=12, pad=15)
+        ax.set_xlabel('Experts', fontsize=10)
+        ax.set_ylabel('Tasks', fontsize=10)
+        
+        # 简化的 colorbar
+        if not hasattr(fig, '_colorbar_created'):
+            plt.colorbar(im, ax=ax, label='Frequency')
+            fig._colorbar_created = True
+        
+        # 优化的图像转换：使用更低 DPI 和简化流程
+        fig.canvas.draw()
+        try:
+            # 直接从 canvas 获取 RGB 数据
+            if hasattr(fig.canvas, 'buffer_rgba'):
+                buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
+                buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (4,))
+                img_array = buf[:, :, :3]  # 去掉 alpha 通道
+            else:
+                buf = np.frombuffer(fig.canvas.tostring_rgb(), dtype=np.uint8)
+                img_array = buf.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+            
+            # 转换为 CHW 格式
+            img_array = img_array.transpose(2, 0, 1)
+            
+        except Exception:
+            # 回退方案：创建简单的蓝色渠度矩阵
+            h, w = matrix.shape
+            img_array = np.zeros((3, h*20, w*20), dtype=np.uint8)
+            # 简单放大矩阵并映射到蓝色通道
+            matrix_resized = np.repeat(np.repeat(matrix, 20, axis=0), 20, axis=1)
+            img_array[2] = (matrix_resized * 255).astype(np.uint8)
+        
+        return img_array
+        
+    except Exception as e:
+        print(f"Warning: 热力图生成失败: {e}, 使用回退方案")
+        # 终极回退：返回空白图像
+        return np.zeros((3, 100, 100), dtype=np.uint8)
+
+def create_heatmap_with_values(matrix, task_ids, title="Task-Expert Selection Frequencies"):
+    """
+    Overview:
+        创建带数值标注的蓝色系热力图，作为高效版本的稳定回退方案
+    
+    Args:
+        matrix (numpy.ndarray): 热力图数据矩阵，形状为 (n_tasks, n_experts)
+        task_ids (list): 任务ID列表，用于Y轴标签
+        title (str, optional): 热力图标题，默认为 "Task-Expert Selection Frequencies"
+    
+    Returns:
+        numpy.ndarray: 图像数组，形状为 (3, height, width)，CHW格式用于TensorBoard
+    
+    Note:
+        - 使用seaborn创建热力图，始终显示数值标注
+        - 通过BytesIO和PIL进行图像转换
+        - 作为create_heatmap_with_values_fast的稳定回退版本
+        - 适用于对稳定性要求高于性能的场景
+        - 不进行内存复用优化，但保证生成结果的可靠性
+    """
+    fig, ax = plt.subplots(figsize=(max(8, matrix.shape[1]), max(6, matrix.shape[0])))
+    
+    # 使用蓝色系颜色映射
+    sns.heatmap(matrix, 
+                annot=True,  # 显示数值
+                fmt='.3f',   # 数值格式
+                cmap='Blues',  # 蓝色系
+                ax=ax,
+                cbar_kws={'label': 'Selection Frequency'},
+                xticklabels=[f'Expert{i}' for i in range(matrix.shape[1])],
+                yticklabels=[f'Task{tid}' for tid in task_ids])
+    
+    ax.set_title(title, fontsize=14, pad=20)
+    ax.set_xlabel('Experts', fontsize=12)
+    ax.set_ylabel('Tasks', fontsize=12)
+    
+    plt.tight_layout()
+    
+    # 保存到BytesIO
+    buf = BytesIO()
+    plt.savefig(buf, format='png', dpi=100, bbox_inches='tight')
+    buf.seek(0)
+    
+    # 转换为numpy数组用于tensorboard
+    img = Image.open(buf)
+    img_array = np.array(img)
+    buf.close()
+    plt.close(fig)
+    
+    # 转换为CHW格式 (Channel, Height, Width)
+    if len(img_array.shape) == 3:
+        img_array = img_array.transpose(2, 0, 1)
+    
+    return img_array
+
+def log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter):
+    """
+    Overview:
+        记录每个任务的详细专家选择统计信息到TensorBoard，提供任务级别的MOE性能分析
+    
+    Args:
+        tb_logger (SummaryWriter): TensorBoard日志记录器
+        merged_stats (dict): 合并后的MOE统计数据，格式为 {task_id: {window_type: stats}}
+        valid_task_ids (list): 有效任务ID列表
+        matrix (numpy.ndarray): 专家选择频率矩阵，形状为 (n_tasks, n_experts)
+        window_type (str): 时间窗口类型，如 'immediate', 'short', 'medium', 'long'
+        train_iter (int): 当前训练迭代次数
+    
+    Returns:
+        None
+    
+    Note:
+        - 为每个任务计算专家选择的熵值（均匀性指标）
+        - 计算专家选择的方差（分散程度指标）
+        - 记录任务级别的汇总统计（总选择次数、数据点数量）
+        - 所有指标按任务和时间窗口分类记录到TensorBoard
+        - 支持MOE模块的细粒度性能分析和调优
+    """
+    for i, task_id in enumerate(valid_task_ids):
+        frequencies = matrix[i]
+        stats = merged_stats[task_id][window_type]
+        
+        # 计算并记录该任务选择专家的熵（均匀性指标）
+        task_frequencies = np.array(frequencies)
+        task_frequencies = task_frequencies + 1e-8  # 避免log(0)
+        task_entropy = -np.sum(task_frequencies * np.log(task_frequencies))
+        tb_logger.add_scalar(
+            f'MOE_Details/Task{task_id}_{window_type}/ExpertSelectionEntropy',
+            task_entropy, global_step=train_iter
+        )
+        
+        # 记录该任务专家选择的方差（分散程度）
+        expert_variance = np.var(task_frequencies)
+        tb_logger.add_scalar(
+            f'MOE_Details/Task{task_id}_{window_type}/ExpertSelectionVariance',
+            expert_variance, global_step=train_iter
+        )
+        
+        # 记录任务级别的汇总统计
+        tb_logger.add_scalar(
+            f'MOE_Details/Task{task_id}_{window_type}/TotalSelections',
+            stats['total_selections'], global_step=train_iter
+        )
+        tb_logger.add_scalar(
+            f'MOE_Details/Task{task_id}_{window_type}/DataPoints',
+            stats['data_points'], global_step=train_iter
+        )
+
+def log_global_moe_statistics(tb_logger, matrix, window_type, valid_task_ids, train_iter):
+    """
+    Overview:
+        记录全局MOE统计信息到TensorBoard，提供整体模块性能的宏观视图
+    
+    Args:
+        tb_logger (SummaryWriter): TensorBoard日志记录器
+        matrix (numpy.ndarray): 专家选择频率矩阵，形状为 (n_tasks, n_experts)
+        window_type (str): 时间窗口类型，如 'immediate', 'short', 'medium', 'long'
+        valid_task_ids (list): 有效任务ID列表
+        train_iter (int): 当前训练迭代次数
+    
+    Returns:
+        None
+    
+    Note:
+        - 记录活跃任务数量和专家数量
+        - 计算专家使用均匀性（熵值）
+        - 识别最常用和最少用的专家ID
+        - 提供MOE模块整体性能的全局视图
+        - 帮助识别专家负载不均衡问题
+    """
+    # 记录基本信息
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/NumActiveTasks',
+        len(valid_task_ids), global_step=train_iter
+    )
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/NumExperts', 
+        matrix.shape[1], global_step=train_iter
+    )
+    
+    # 计算专家使用均匀性
+    expert_avg_usage = np.mean(matrix, axis=0)  # 每个专家的平均使用频率
+    usage_entropy = -np.sum(expert_avg_usage * np.log(expert_avg_usage + 1e-8))
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/ExpertUsageEntropy',
+        usage_entropy, global_step=train_iter
+    )
+    
+    # 记录最常用和最少用的专家
+    most_used_expert = np.argmax(expert_avg_usage)
+    least_used_expert = np.argmin(expert_avg_usage)
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/MostUsedExpert',
+        most_used_expert, global_step=train_iter
+    )
+    tb_logger.add_scalar(
+        f'MOE_Global/{window_type}/LeastUsedExpert', 
+        least_used_expert, global_step=train_iter
+    )
+
+def process_and_log_moe_heatmaps_fast(tb_logger, merged_stats, window_type, train_iter):
+    """
+    Overview:
+        高效处理和记录MOE热力图，优化的主入口函数用于可视化MOE统计数据
+    
+    Args:
+        tb_logger (SummaryWriter): TensorBoard日志记录器
+        merged_stats (dict): 合并后的MOE统计数据
+        window_type (str): 时间窗口类型
+        train_iter (int): 当前训练迭代次数
+    
+    Returns:
+        None
+    
+    Note:
+        - 向量化数据处理，减少循环操作
+        - 使用高效的热力图生成函数
+        - 条件性热力图生成（小矩阵才生成）
+        - 批量处理统计数据
+        - 始终记录详细统计和全局统计
+    """
+    # 快速筛选有效任务
+    valid_task_data = [(tid, stats[window_type]['frequencies']) 
+                      for tid, stats in merged_stats.items() 
+                      if window_type in stats]
+    
+    if not valid_task_data:
+        return
+    
+    # 向量化构建矩阵
+    valid_task_ids, frequencies_list = zip(*valid_task_data)
+    matrix = np.array(frequencies_list)
+    
+    # 条件性热力图生成：小矩阵才生成热力图
+    if matrix.size <= 200:  # 只有在任务数*专家数 <= 200时才生成热力图
+        try:
+            heatmap_img = create_heatmap_with_values_fast(
+                matrix, valid_task_ids, 
+                f'MOE {window_type} Task-Expert Selection'
+            )
+            
+            # 记录热力图到tensorboard
+            tb_logger.add_image(
+                f'MOE_Heatmap/{window_type}_TaskExpert_Heatmap',
+                heatmap_img,
+                global_step=train_iter,
+                dataformats='CHW'
+            )
+        except Exception as e:
+            print(f"Warning: 热力图生成失败: {e}")
+    
+    # 始终记录统计数据（轻量级操作）
+    log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter)
+    log_global_moe_statistics(tb_logger, matrix, window_type, valid_task_ids, train_iter)
+
+def process_and_log_moe_heatmaps(tb_logger, merged_stats, window_type, train_iter):
+    """
+    Overview:
+        处理和记录MOE热力图，作为高效版本的稳定回退方案
+    
+    Args:
+        tb_logger (SummaryWriter): TensorBoard日志记录器
+        merged_stats (dict): 合并后的MOE统计数据
+        window_type (str): 时间窗口类型
+        train_iter (int): 当前训练迭代次数
+    
+    Returns:
+        None
+    
+    Note:
+        - 传统循环处理方式，稳定可靠
+        - 始终生成热力图无条件限制
+        - 作为process_and_log_moe_heatmaps_fast的回退方案
+        - 不进行性能优化但保证功能完整性
+    """
+    all_task_ids = sorted(merged_stats.keys())
+    task_expert_matrix = []
+    valid_task_ids = []
+    
+    # 收集有效任务的频率数据
+    for task_id in all_task_ids:
+        if window_type in merged_stats[task_id]:
+            frequencies = merged_stats[task_id][window_type]['frequencies']
+            task_expert_matrix.append(frequencies)
+            valid_task_ids.append(task_id)
+    
+    if not task_expert_matrix:
+        return
+    
+    # 转换为numpy矩阵 (num_tasks, num_experts)
+    matrix = np.array(task_expert_matrix)
+    
+    # 创建带数值标注的蓝色系热力图
+    heatmap_img = create_heatmap_with_values(
+        matrix, valid_task_ids, 
+        f'MOE {window_type} Task-Expert Selection Frequencies'
+    )
+    
+    # 记录热力图到tensorboard
+    tb_logger.add_image(
+        f'MOE_Heatmap/{window_type}_TaskExpert_Heatmap',
+        heatmap_img,
+        global_step=train_iter,
+        dataformats='CHW'
+    )
+    
+    # 记录详细统计和全局统计
+    log_expert_selection_details(tb_logger, merged_stats, valid_task_ids, matrix, window_type, train_iter)
+
+def convert_stats_to_serializable(moe_stats):
+    """
+    Overview:
+        将MOE统计数据中的PyTorch tensor转换为可序列化的numpy格式
+    
+    Args:
+        moe_stats (dict): 包含tensor的MOE统计数据
+    
+    Returns:
+        dict: 转换后的可序列化统计数据
+    
+    Note:
+        - 将GPU上tensor转移到CPU再转换为numpy
+        - 支持分布式训练中的数据交换
+        - 保持原有数据结构不变
+        - 处理空数据的边界情况
+    """
+    if not moe_stats:
+        return {}
+    
+    converted = {}
+    for task_id, task_stats in moe_stats.items():
+        converted[task_id] = {}
+        for window_type, stats in task_stats.items():
+            if stats and 'frequencies' in stats:
+                converted[task_id][window_type] = {
+                    'frequencies': stats['frequencies'].cpu().numpy().tolist(),
+                    'total_selections': stats['total_selections'],
+                    'data_points': stats['data_points']
+                }
+    return converted
+
+def gather_distributed_moe_stats(local_stats, world_size):
+    """
+    Overview:
+        在分布式训练中收集和合并MOE统计数据，实现跨GPU的数据同步
+    
+    Args:
+        local_stats (dict): 本地GPU的MOE统计数据
+        world_size (int): 总进程数（GPU数量）
+    
+    Returns:
+        dict: 合并后的全局MOE统计数据
+    
+    Note:
+        - 单GPU训练时直接返回本地数据
+        - 多GPU训练时进行数据聚合
+        - 自动处理tensor到numpy的转换
+        - 为未来的完整分布式实现预留接口
+    """
+    if world_size == 1:
+        return local_stats
+    
+    # 将本地统计转换为可序列化格式后进行分布式收集
+    serializable_stats = convert_stats_to_serializable(local_stats)
+    return serializable_stats
+
+def collect_and_log_moe_statistics(policy, tb_logger, train_iter, world_size, rank):
+    """
+    Overview:
+        收集和记录MOE统计信息，主MOE监控系统的核心入口函数
+    
+    Args:
+        policy: 策略对象，包含MOE模型
+        tb_logger (SummaryWriter): TensorBoard日志记录器
+        train_iter (int): 当前训练迭代次数
+        world_size (int): 总进程数（分布式训练）
+        rank (int): 当前进程rank
+    
+    Returns:
+        None
+    
+    Note:
+        - 从策略中提取MOE层的统计数据
+        - 支持分布式训练中的数据收集
+        - 只在rank 0进程中记录到TensorBoard
+        - 对多个时间窗口进行统计处理
+        - 包含完整的异常处理和错误日志
+    """
+    try:
+        # 从policy收集本地MOE统计
+        local_stats = {}
+        if hasattr(policy, '_learn_model') and hasattr(policy._learn_model, 'world_model'):
+            world_model = policy._learn_model.world_model
+            
+            # 检查是否有transformer和MoE层
+            if hasattr(world_model, 'transformer'):
+                transformer = world_model.transformer
+                if hasattr(transformer, 'moe_layers') and transformer.moe_layers:
+                    # 只从最后一个MoE层收集统计（性能优化）
+                    last_moe_layer = transformer.moe_layers[-1]
+                    if hasattr(last_moe_layer, 'get_expert_selection_stats'):
+                        local_stats = last_moe_layer.get_expert_selection_stats()
+        
+        # 分布式收集统计（简化版本）
+        merged_stats = gather_distributed_moe_stats(local_stats, world_size)
+        
+        # 只在rank 0记录到TensorBoard
+        if rank == 0 and tb_logger and merged_stats:
+            # 处理不同时间窗口的统计
+            for window_type in ['immediate', 'short', 'medium', 'long']:
+                # 检查是否有有效数据
+                has_data = any(window_type in task_stats for task_stats in merged_stats.values())
+                if has_data:
+                    # 使用优化版本的热力图处理
+                    process_and_log_moe_heatmaps_fast(tb_logger, merged_stats, window_type, train_iter)
+    
+    except Exception as e:
+        print(f"Rank {rank}: MOE统计收集失败 - {e}, train_iter={train_iter}")
+        import traceback
+        traceback.print_exc()
+
+# ====== GPU优化的分布差异计算和可视化函数 ======
+def jensen_shannon_divergence_batch_gpu(distributions_tensor):
+    """
+    Overview:
+        GPU批量计算Jensen-Shannon散度矩阵，使用内存池优化性能
+    
+    Args:
+        distributions_tensor (torch.Tensor): 专家选择分布张量，形状 (n_tasks, n_experts)
+    
+    Returns:
+        torch.Tensor: JS散度矩阵，形状 (n_tasks, n_tasks)，对称矩阵
+    
+    Note:
+        - 使用GPU优化器的内存池减少内存分配
+        - 支持向量化计算，无需循环
+        - JS散度范围为[0,1]，越小表示越相似
+        - 主要用于衡量任务间专家选择的相似性
+    """
+    # 使用GPU优化器提升性能
+    return get_gpu_optimizer().optimized_js_divergence(distributions_tensor)
+
+def wasserstein_distance_batch_gpu(distributions_tensor):
+    """
+    Overview:
+        GPU批量计算Wasserstein距离矩阵，使用内存池优化性能
+    
+    Args:
+        distributions_tensor (torch.Tensor): 专家选择分布张量，形状 (n_tasks, n_experts)
+    
+    Returns:
+        torch.Tensor: Wasserstein距离矩阵，形状 (n_tasks, n_tasks)，对称矩阵
+    
+    Note:
+        - 使用GPU优化器的内存池减少内存分配
+        - 通过CDF计算Wasserstein-1距离
+        - 支持向量化计算，高效处理大批量数据
+        - 主要用于衡量任务间专家选择的差异性
+    """
+    # 使用GPU优化器提升性能
+    return get_gpu_optimizer().optimized_wasserstein(distributions_tensor)
+
+def compute_distribution_divergences_optimized(merged_stats, window_type='immediate'):
+    """
+    Overview:
+        GPU优化的高效分布差异计算，同时计算JS散度和Wasserstein距离
+    
+    Args:
+        merged_stats (dict): 合并后的MOE统计数据
+        window_type (str, optional): 时间窗口类型，默认 'immediate'
+    
+    Returns:
+        dict: 包含散度矩阵和统计信息的字典，空字典表示任务数不足
+    
+    Note:
+        - 自动检测GPU可用性并选择最佳设备
+        - 向量化处理，无需循环计算
+        - 支持异构数据格式（tensor/numpy）自动转换
+        - 提供详细的性能统计和设备信息
+        - 需要至少两个任务才能计算分布差异
+    """
+    # 1. 数据预处理
+    valid_tasks = [(tid, stats[window_type]['frequencies']) 
+                  for tid, stats in merged_stats.items() 
+                  if window_type in stats]
+    
+    if len(valid_tasks) < 2:
+        return {}
+    
+    task_ids, frequencies_list = zip(*valid_tasks)
+    
+    # 2. 高效张量转换
+    try:
+        if isinstance(frequencies_list[0], torch.Tensor):
+            frequencies_tensor = torch.stack(frequencies_list)
+        else:
+            frequencies_tensor = torch.tensor(
+                np.array(frequencies_list), 
+                dtype=torch.float32
+            )
+        
+        # 自动GPU加速
+        if torch.cuda.is_available():
+            frequencies_tensor = frequencies_tensor.cuda()
+            
+    except Exception as e:
+        print(f"GPU转换失败，使用CPU: {e}")
+        frequencies_tensor = torch.tensor(np.array(frequencies_list), dtype=torch.float32)
+    
+    device = frequencies_tensor.device
+    n_tasks, n_experts = frequencies_tensor.shape
+    
+    # 3. GPU批量计算（无循环）
+    with torch.no_grad():
+        # 批量计算JS散度和Wasserstein距离
+        js_matrix = jensen_shannon_divergence_batch_gpu(frequencies_tensor)
+        wasserstein_matrix = wasserstein_distance_batch_gpu(frequencies_tensor)
+        
+        # 高效提取上三角值（避免重复计算）
+        triu_indices = torch.triu_indices(n_tasks, n_tasks, offset=1, device=device)
+        js_values = js_matrix[triu_indices[0], triu_indices[1]]
+        wasserstein_values = wasserstein_matrix[triu_indices[0], triu_indices[1]]
+        
+        # 统计计算（向量化）
+        js_stats = {
+            'avg': torch.mean(js_values).item(),
+            'max': torch.max(js_values).item(),
+            'min': torch.min(js_values).item(),
+            'std': torch.std(js_values).item()
+        }
+        
+        wasserstein_stats = {
+            'avg': torch.mean(wasserstein_values).item(),
+            'max': torch.max(wasserstein_values).item(), 
+            'min': torch.min(wasserstein_values).item(),
+            'std': torch.std(wasserstein_values).item()
+        }
+    
+    return {
+        'task_ids': task_ids,
+        'n_tasks': n_tasks,
+        'n_experts': n_experts,
+        'device': str(device),
+        'gpu_accelerated': 'cuda' in str(device),
+        
+        # 返回CPU版本用于记录
+        'js_matrix': js_matrix.cpu().numpy(),
+        'wasserstein_matrix': wasserstein_matrix.cpu().numpy(),
+        'js_stats': js_stats,
+        'wasserstein_stats': wasserstein_stats
+    }
+
+def create_similarity_heatmap_no_diagonal(similarity_matrix, task_ids, metric_name, title_suffix=""):
+    """
+    创建任务相似度热力图 - 去掉对角线部分
+    
+    Args:
+        similarity_matrix: 相似度矩阵 (n_tasks, n_tasks)
+        task_ids: 任务ID列表
+        metric_name: 指标名称 ('js_divergence', 'wasserstein_distance')
+        title_suffix: 标题后缀
+    """
+    try:
+        # 复制矩阵避免修改原数据
+        matrix = similarity_matrix.copy()
+        
+        # 将对角线设置为NaN，这样matplotlib会显示为空白
+        np.fill_diagonal(matrix, np.nan)
+        
+        figsize = (max(6, len(task_ids)), max(4, len(task_ids)))
+        fig, ax = plt.subplots(figsize=figsize)  # 创建新figure避免复用问题
+        
+        # 根据指标类型选择颜色映射
+        if 'js' in metric_name.lower():
+            cmap = 'Reds'
+            title_name = 'JS Divergence'
+            vmin, vmax = 0, 1.0
+        else:  # wasserstein
+            cmap = 'Blues'  
+            title_name = 'Wasserstein Distance'
+            vmin, vmax = None, None  # 自适应
+        
+        # 使用masked数组处理NaN值，对角线显示为白色
+        masked_matrix = np.ma.masked_invalid(matrix)
+        im = ax.imshow(masked_matrix, cmap=cmap, vmin=vmin, vmax=vmax, aspect='auto')
+        
+        # 添加数值标注（跳过对角线）
+        if len(task_ids) <= 15:  # 只在任务数较少时添加标注
+            for i in range(len(task_ids)):
+                for j in range(len(task_ids)):
+                    if i != j:  # 跳过对角线
+                        value = matrix[i, j]
+                        if not np.isnan(value):
+                            threshold = (vmax or np.nanmax(matrix)) * 0.5 if vmax else np.nanmax(matrix) * 0.5
+                            color = 'white' if value > threshold else 'black'
+                            ax.text(j, i, f'{value:.3f}', ha='center', va='center', 
+                                   color=color, fontsize=8)
+        
+        # 设置标签
+        ax.set_xticks(range(len(task_ids)))
+        ax.set_yticks(range(len(task_ids)))
+        ax.set_xticklabels([f'T{tid}' for tid in task_ids], fontsize=9)
+        ax.set_yticklabels([f'T{tid}' for tid in task_ids], fontsize=9)
+        ax.set_title(f'Task {title_name} Matrix {title_suffix} (No Diagonal)', fontsize=12)
+        ax.set_xlabel('Tasks', fontsize=10)
+        ax.set_ylabel('Tasks', fontsize=10)
+        
+        # 添加colorbar
+        plt.colorbar(im, ax=ax, label=title_name, shrink=0.8)
+        
+        # 转换为图像数组 - 修复matplotlib版本兼容性
+        fig.canvas.draw()
+        
+        try:
+            # 新版matplotlib使用buffer_rgba
+            if hasattr(fig.canvas, 'buffer_rgba'):
+                buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
+                h, w = fig.canvas.get_width_height()
+                img_array = buf.reshape(h, w, 4)[:, :, :3]  # 去掉alpha通道
+            else:
+                # 旧版matplotlib回退方案
+                buf = fig.canvas.print_to_string()
+                img_array = np.frombuffer(buf, dtype=np.uint8)
+                h, w = fig.canvas.get_width_height()
+                img_array = img_array.reshape(h, w, 3)
+        except Exception as conv_e:
+            print(f"图像转换方法失败: {conv_e}, 尝试PIL方案")
+            # 最终回退：通过PIL转换
+            from io import BytesIO
+            buf = BytesIO()
+            fig.savefig(buf, format='png', dpi=100, bbox_inches='tight')
+            buf.seek(0)
+            from PIL import Image
+            img = Image.open(buf)
+            img_array = np.array(img)[:, :, :3]  # 去掉alpha通道
+            buf.close()
+        
+        img_array = img_array.transpose(2, 0, 1)  # CHW格式
+        plt.close(fig)  # 关闭figure避免内存泄漏
+        
+        return img_array
+        
+    except Exception as e:
+        print(f"Warning: 无对角线热力图生成失败: {e}")
+        return np.zeros((3, 100, 100), dtype=np.uint8)
+
+def log_pairwise_optimized(tb_logger, divergence_data, train_iter):
+    """
+    优化的任务对记录 - 批量处理
+    """
+    task_ids = divergence_data['task_ids']
+    js_matrix = divergence_data['js_matrix']
+    wasserstein_matrix = divergence_data['wasserstein_matrix']
+    
+    # 批量构建任务对指标字典
+    pairwise_scalars = {}
+    
+    for i, task_i in enumerate(task_ids):
+        for j, task_j in enumerate(task_ids):
+            if i < j:  # 只记录上三角
+                # 构建指标名称
+                js_key = f'TaskPairwise/Immediate_Task{task_i}_Task{task_j}_JS_Divergence'
+                wass_key = f'TaskPairwise/Immediate_Task{task_i}_Task{task_j}_Wasserstein_Distance'
+                
+                pairwise_scalars[js_key] = js_matrix[i, j]
+                pairwise_scalars[wass_key] = wasserstein_matrix[i, j]
+    
+    # 批量写入TensorBoard
+    for key, value in pairwise_scalars.items():
+        tb_logger.add_scalar(key, float(value), global_step=train_iter)
+
+def log_divergences_with_heatmaps(tb_logger, divergence_data, train_iter):
+    """
+    记录分布差异指标和热力图（去掉对角线）
+    """
+    if not divergence_data:
+        return
+    
+    js_stats = divergence_data['js_stats']
+    wasserstein_stats = divergence_data['wasserstein_stats']
+    task_ids = divergence_data['task_ids']
+    n_tasks = divergence_data['n_tasks']
+    
+    # 调试：检查矩阵数据
+    js_matrix = divergence_data['js_matrix']
+    wasserstein_matrix = divergence_data['wasserstein_matrix']
+    print(f"DEBUG: JS矩阵形状={js_matrix.shape}, 范围=[{np.min(js_matrix):.6f}, {np.max(js_matrix):.6f}]")
+    print(f"DEBUG: Wasserstein矩阵形状={wasserstein_matrix.shape}, 范围=[{np.min(wasserstein_matrix):.6f}, {np.max(wasserstein_matrix):.6f}]")
+    
+    # 1. 记录标量指标
+    scalar_dict = {
+        'MOE_Divergence/Immediate_AvgJS_Divergence': js_stats['avg'],
+        'MOE_Divergence/Immediate_MaxJS_Divergence': js_stats['max'],
+        'MOE_Divergence/Immediate_AvgWasserstein_Distance': wasserstein_stats['avg'],
+        'MOE_Divergence/Immediate_MaxWasserstein_Distance': wasserstein_stats['max'],
+    }
+    
+    for key, value in scalar_dict.items():
+        tb_logger.add_scalar(key, value, global_step=train_iter)
+    
+    # 1.1 打印核心指标到控制台
+    print("=" * 65)
+    print(f" 任务间分布差异统计 (Iteration: {train_iter})")
+    print("=" * 65)
+    print(f"参与任务数量: {n_tasks} | 任务ID: {list(task_ids)}")
+    print(f"计算设备: {divergence_data.get('device', 'Unknown')} | GPU加速: {'启用' if divergence_data.get('gpu_accelerated', False) else '禁用'}")
+    print("-" * 65)
+    print("JS散度 (Jensen-Shannon Divergence):")
+    print(f"  平均值: {js_stats['avg']:.6f}  |  最大值: {js_stats['max']:.6f}")
+    print(f"  最小值: {js_stats['min']:.6f}  |  标准差: {js_stats['std']:.6f}")
+    print("-" * 65)
+    print("Wasserstein距离:")
+    print(f"  平均值: {wasserstein_stats['avg']:.6f}  |  最大值: {wasserstein_stats['max']:.6f}")
+    print(f"  最小值: {wasserstein_stats['min']:.6f}  |  标准差: {wasserstein_stats['std']:.6f}")
+    print("=" * 65)
+    
+    # 2. 记录去掉对角线的相似度矩阵热力图
+    task_ids = divergence_data['task_ids']
+    n_tasks = divergence_data['n_tasks']
+    
+    if n_tasks <= 25:  # 限制矩阵大小避免过大热力图
+        try:
+            # JS散度矩阵热力图（无对角线）
+            js_heatmap = create_similarity_heatmap_no_diagonal(
+                divergence_data['js_matrix'], 
+                task_ids, 
+                'js_divergence',
+                f'(Immediate-{n_tasks} tasks)'
+            )
+            tb_logger.add_image(
+                'TaskSimilarity/Immediate_JS_Matrix_NoDiagonal',
+                js_heatmap,
+                global_step=train_iter,
+                dataformats='CHW'
+            )
+            
+            # Wasserstein距离矩阵热力图（无对角线）
+            wass_heatmap = create_similarity_heatmap_no_diagonal(
+                divergence_data['wasserstein_matrix'], 
+                task_ids, 
+                'wasserstein_distance',
+                f'(Immediate-{n_tasks} tasks)'
+            )
+            tb_logger.add_image(
+                'TaskSimilarity/Immediate_Wasserstein_Matrix_NoDiagonal',
+                wass_heatmap,
+                global_step=train_iter,
+                dataformats='CHW'
+            )
+            
+        except Exception as e:
+            print(f"Warning: 相似度矩阵热力图生成失败: {e}")
+    
+    # 3. 记录任务对指标（可选）
+    if n_tasks <= 20:
+        log_pairwise_optimized(tb_logger, divergence_data, train_iter)
+
+def collect_and_log_divergences_with_heatmaps(tb_logger, merged_stats, train_iter):
+    """
+    完整的分布差异计算和记录（包含无对角线热力图）
+    """
+    try:
+        # GPU优化计算
+        divergence_data = compute_distribution_divergences_optimized(merged_stats, 'immediate')
+        
+        if not divergence_data:
+            print(f"跳过分布差异计算 - 任务数不足 (需要>=2个任务)")
+            return
+        
+        # 记录指标和热力图
+        log_divergences_with_heatmaps(tb_logger, divergence_data, train_iter)
+        
+        # 汇总打印
+        print(f">> 分布差异统计已完成并记录到TensorBoard")
+        if divergence_data.get('n_tasks', 0) <= 25:
+            print(f">> 相似度矩阵热力图已生成 (去除对角线)")
+        if divergence_data.get('n_tasks', 0) <= 20:
+            print(f">> 任务对详细指标已记录")
+        print()  # 空行分隔
+        
+    except Exception as e:
+        print(f"ERROR: 分布差异计算失败 - {e}")
+        import traceback
+        traceback.print_exc()
+
+
+# ==================== GPU内存池优化模块 =============================
+class GPUTensorPool:
+    """
+    轻量级GPU张量池 - 针对8x8矩阵优化
+    
+    只缓存最常用的张量：
+    - 频率矩阵 (8, 8)
+    - JS散度矩阵 (8, 8) 
+    - Wasserstein矩阵 (8, 8)
+    - 临时计算缓冲区
+    """
+    def __init__(self, device):
+        self.device = device
+        self.tensor_cache = {}
+        self.max_cache_size = 20  # 限制缓存大小
+        self.hit_count = 0
+        self.miss_count = 0
+    
+    def get_tensor(self, shape, dtype=torch.float32, key="default"):
+        """获取缓存的张量或创建新的"""
+        cache_key = (tuple(shape), dtype, key)
+        
+        if cache_key in self.tensor_cache:
+            tensor = self.tensor_cache[cache_key]
+            if tensor.shape == shape and tensor.device == self.device:
+                self.hit_count += 1
+                return tensor.zero_()  # 复用并清零
+        
+        # 创建新张量并缓存
+        tensor = torch.zeros(shape, dtype=dtype, device=self.device)
+        if len(self.tensor_cache) < self.max_cache_size:
+            self.tensor_cache[cache_key] = tensor
+        
+        self.miss_count += 1
+        return tensor
+    
+    def get_cache_stats(self):
+        """获取缓存命中率统计"""
+        total = self.hit_count + self.miss_count
+        hit_rate = self.hit_count / total if total > 0 else 0
+        return {
+            'hit_count': self.hit_count,
+            'miss_count': self.miss_count, 
+            'hit_rate': hit_rate,
+            'cache_size': len(self.tensor_cache)
+        }
+    
+    def clear_cache(self):
+        """清理缓存"""
+        self.tensor_cache.clear()
+        self.hit_count = 0
+        self.miss_count = 0
+
+
+class BatchComputeOptimizer:
+    """
+    批量计算优化器 - GPU向量化处理
+    
+    优化目标：
+    - JS散度计算向量化
+    - Wasserstein距离计算向量化  
+    - 减少GPU内存分配
+    """
+    def __init__(self, tensor_pool):
+        self.pool = tensor_pool
+        self.compute_count = 0
+        self.total_compute_time = 0.0
+    
+    def optimized_js_divergence(self, distributions_tensor):
+        """优化的JS散度计算 - 复用内存"""
+        start_time = time.time() if hasattr(time, 'time') else 0
+        
+        n_tasks, n_experts = distributions_tensor.shape
+        device = distributions_tensor.device
+        
+        # 复用缓存的张量
+        js_matrix = self.pool.get_tensor((n_tasks, n_tasks), key="js_matrix")
+        
+        # 向量化计算（原有算法保持不变）
+        eps = 1e-8
+        distributions_tensor = distributions_tensor / (distributions_tensor.sum(dim=1, keepdim=True) + eps)
+        
+        P_i = distributions_tensor.unsqueeze(1)  
+        P_j = distributions_tensor.unsqueeze(0)  
+        M = 0.5 * (P_i + P_j)
+        
+        log_ratio_i = torch.log((P_i + eps) / (M + eps))
+        kl_i_m = torch.sum(P_i * log_ratio_i, dim=2)
+        
+        log_ratio_j = torch.log((P_j + eps) / (M + eps))
+        kl_j_m = torch.sum(P_j * log_ratio_j, dim=2)
+        
+        js_matrix.copy_(0.5 * (kl_i_m + kl_j_m))
+        
+        # 统计计算时间
+        if hasattr(time, 'time'):
+            self.total_compute_time += time.time() - start_time
+            self.compute_count += 1
+            
+        return js_matrix
+        
+    def optimized_wasserstein(self, distributions_tensor):
+        """优化的Wasserstein距离计算 - 复用内存"""
+        start_time = time.time() if hasattr(time, 'time') else 0
+        
+        n_tasks, n_experts = distributions_tensor.shape
+        
+        # 复用缓存的张量
+        wass_matrix = self.pool.get_tensor((n_tasks, n_tasks), key="wass_matrix")
+        cdf_buffer = self.pool.get_tensor((n_tasks, n_experts), key="cdf_buffer")
+        
+        # 向量化计算
+        eps = 1e-8
+        distributions_tensor = distributions_tensor / (distributions_tensor.sum(dim=1, keepdim=True) + eps)
+        
+        # 复用缓冲区计算CDF
+        torch.cumsum(distributions_tensor, dim=1, out=cdf_buffer)
+        
+        cdf_i = cdf_buffer.unsqueeze(1)
+        cdf_j = cdf_buffer.unsqueeze(0)
+        
+        wass_matrix.copy_(torch.sum(torch.abs(cdf_i - cdf_j), dim=2))
+        
+        # 统计计算时间
+        if hasattr(time, 'time'):
+            self.total_compute_time += time.time() - start_time
+            self.compute_count += 1
+            
+        return wass_matrix
+    
+    def get_performance_stats(self):
+        """获取性能统计"""
+        avg_time = self.total_compute_time / self.compute_count if self.compute_count > 0 else 0
+        return {
+            'compute_count': self.compute_count,
+            'total_time': self.total_compute_time,
+            'avg_time_per_compute': avg_time,
+            'cache_stats': self.pool.get_cache_stats()
+        }
+
+
+# 全局优化器实例
+_gpu_optimizer = None
+
+def get_gpu_optimizer():
+    """获取全局GPU优化器实例"""
+    global _gpu_optimizer
+    if _gpu_optimizer is None:
+        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+        tensor_pool = GPUTensorPool(device)
+        _gpu_optimizer = BatchComputeOptimizer(tensor_pool)
+    return _gpu_optimizer
+
+def get_optimization_stats():
+    """获取优化性能统计（调试用）"""
+    if _gpu_optimizer is not None:
+        return _gpu_optimizer.get_performance_stats()
+    return None
diff --git a/lzero/mcts/tree_search/mcts_ctree.py b/lzero/mcts/tree_search/mcts_ctree.py
index 97c3528c0..60f389dc2 100644
--- a/lzero/mcts/tree_search/mcts_ctree.py
+++ b/lzero/mcts/tree_search/mcts_ctree.py
@@ -46,7 +46,7 @@ def default_config(cls: type) -> EasyDict:
         cfg.cfg_type = cls.__name__ + 'Dict'
         return cfg
 
-    def __init__(self, cfg: EasyDict = None) -> None:
+    def __init__(self, cfg: EasyDict = None,eval=False) -> None:
         """
         Overview:
             Use the default configuration mechanism. If a user passes in a cfg with a key that matches an existing key
@@ -56,9 +56,13 @@ def __init__(self, cfg: EasyDict = None) -> None:
         default_config = self.default_config()
         default_config.update(cfg)
         self._cfg = default_config
+        if eval:
+            self._cfg.num_simulations=self._cfg.eval_num_simulations
+        
         self.inverse_scalar_transform_handle = InverseScalarTransform(
             self._cfg.model.support_scale, self._cfg.device, self._cfg.model.categorical_distribution
         )
+        
 
     @classmethod
     def roots(cls: int, active_collect_env_num: int, legal_actions: List[Any]) -> "mz_ctree":
diff --git a/lzero/model/common.py b/lzero/model/common.py
index 5ac305e52..f36f9fb06 100644
--- a/lzero/model/common.py
+++ b/lzero/model/common.py
@@ -248,6 +248,68 @@ def remove_hooks(self):
         self.forward_handler.remove()
         self.backward_handler.remove()
 
+# # modified by tangjia
+# class ModelGradientHook:
+ 
+
+#     def __init__(self):
+#         """
+#         Overview:
+#             Class to capture gradients at model output.
+#         """
+#         self.output_grads = []
+ 
+#     def setup_hook(self, model):
+#         # Hook to capture gradients at model output
+#         self.backward_handler = model.register_full_backward_hook(self.backward_hook)
+ 
+#     def backward_hook(self, module, grad_input, grad_output):
+#         with torch.no_grad():
+#             # 保存输出梯度
+#             if grad_output[0] is not None:
+#                 self.output_grads.append(grad_output[0].clone())
+ 
+#     def analyze(self):
+#         if not self.output_grads:
+#             return None
+        
+#         # Calculate norms of output gradients
+#         grad_norms = [torch.norm(g, p=2, dim=1).mean() for g in self.output_grads]
+#         avg_grad_norm = torch.mean(torch.stack(grad_norms))
+#         max_grad_norm = torch.max(torch.stack(grad_norms))
+#         min_grad_norm = torch.min(torch.stack(grad_norms))
+ 
+#         # Clear stored data and delete tensors to free memory
+#         self.clear_data()
+ 
+#         # Optionally clear CUDA cache
+#         if torch.cuda.is_available():
+#             torch.cuda.empty_cache()
+ 
+#         return avg_grad_norm, max_grad_norm, min_grad_norm
+ 
+#     def clear_data(self):
+#         del self.output_grads[:]
+ 
+#     def remove_hooks(self):
+#         self.backward_handler.remove()
+ 
+# 使用示例
+# monitor = ModelGradientMonitor()
+# monitor.setup_hook(model)
+# 
+# # 训练过程中...
+# loss.backward()
+# 
+# # 获取梯度信息
+# grad_norm = monitor.get_gradient_norm()
+# grad_stats = monitor.get_gradient_stats()
+# 
+# # 清理数据
+# monitor.clear_data()
+# 
+# # 训练结束后移除hook
+# monitor.remove_hook()
 
 class DownSample(nn.Module):
 
diff --git a/lzero/model/unizero_model_multitask.py b/lzero/model/unizero_model_multitask.py
index 9a24d8dfb..711f71d55 100644
--- a/lzero/model/unizero_model_multitask.py
+++ b/lzero/model/unizero_model_multitask.py
@@ -6,7 +6,7 @@
 from easydict import EasyDict
 
 from .common import MZNetworkOutput, RepresentationNetworkUniZero, RepresentationNetworkMLP, LatentDecoder, \
-    VectorDecoderForMemoryEnv, LatentEncoderForMemoryEnv, LatentDecoderForMemoryEnv, FeatureAndGradientHook
+    VectorDecoderForMemoryEnv, LatentEncoderForMemoryEnv, LatentDecoderForMemoryEnv, FeatureAndGradientHook #,ModelGradientHook
 from .unizero_world_models.tokenizer import Tokenizer
 from .unizero_world_models.world_model_multitask import WorldModelMT
 
@@ -124,7 +124,7 @@ def __init__(
                     ))
             elif world_model_cfg.encoder_type == "vit":
                 for task_id in range(1):  # TODO: one share encoder
-                    if world_model_cfg.task_num <=8: 
+                    if world_model_cfg.task_num ==1: 
                         # # vit base
                         # self.representation_network.append(ViT(
                         #     image_size =observation_shape[1],
@@ -144,12 +144,41 @@ def __init__(
                             patch_size = 8,
                             num_classes = obs_act_embed_dim,
                             dim = 768,
-                            depth = 6,
-                            heads = 6,
-                            mlp_dim = 2048,
+                            depth = 12,
+                            heads = 12,
+                            mlp_dim = 3072,
+                            dropout = 0.1,
+                            emb_dropout = 0.1,
+                            final_norm_option_in_encoder=world_model_cfg.final_norm_option_in_encoder,
+
+                        ))
+                    elif world_model_cfg.task_num <=8: 
+                        # # vit base
+                        # self.representation_network.append(ViT(
+                        #     image_size =observation_shape[1],
+                        #     patch_size = 8,
+                        #     num_classes = obs_act_embed_dim,
+                        #     dim = 768,
+                        #     depth = 12,
+                        #     heads = 12,
+                        #     mlp_dim = 3072,
+                        #     dropout = 0.1,
+                        #     emb_dropout = 0.1,
+                        #     final_norm_option_in_encoder=world_model_cfg.final_norm_option_in_encoder,
+                        # ))
+                        # vit small
+                        self.representation_network.append(ViT(
+                            image_size =observation_shape[1],
+                            patch_size = 8,
+                            num_classes = obs_act_embed_dim,
+                            dim = 768,
+                            depth = 12,
+                            heads = 12,
+                            mlp_dim = 3072,
                             dropout = 0.1,
                             emb_dropout = 0.1,
                             final_norm_option_in_encoder=world_model_cfg.final_norm_option_in_encoder,
+
                         ))
                     elif world_model_cfg.task_num > 8: 
                         # vit base
@@ -189,6 +218,11 @@ def __init__(
                 self.encoder_hook = FeatureAndGradientHook()
                 self.encoder_hook.setup_hooks(self.representation_network)
 
+            # if True: # Fixme: for debug
+            #     # 增加对encoder的hook,监控传播到encoder 上的梯度
+            #     self.encoder_output_hook = ModelGradientHook()
+            #     self.encoder_output_hook.setup_hook(self.representation_network)
+
             self.tokenizer = Tokenizer(encoder=self.representation_network, decoder_network=None, with_lpips=False, obs_type=world_model_cfg.obs_type)
             self.world_model = WorldModelMT(config=world_model_cfg, tokenizer=self.tokenizer)
             print(f'{sum(p.numel() for p in self.world_model.parameters())} parameters in agent.world_model')
diff --git a/lzero/model/unizero_world_models/__init__.py b/lzero/model/unizero_world_models/__init__.py
index c1d02cb8c..e69de29bb 100644
--- a/lzero/model/unizero_world_models/__init__.py
+++ b/lzero/model/unizero_world_models/__init__.py
@@ -1 +0,0 @@
-from .transformer import Transformer, TransformerConfig
diff --git a/lzero/model/unizero_world_models/moe.py b/lzero/model/unizero_world_models/moe.py
index 8ee8115ee..845138812 100644
--- a/lzero/model/unizero_world_models/moe.py
+++ b/lzero/model/unizero_world_models/moe.py
@@ -5,7 +5,7 @@
 import torch.nn.functional as F
 from simple_parsing.helpers import Serializable
 from torch import nn
-
+import torch.distributed as dist
 from lzero.model.unizero_world_models.transformer import _maybe_wrap_linear
 
 # _maybe_wrap_linear(nn.Linear(config.embed_dim, 4 * config.embed_dim), config, "feed_forward")
@@ -59,7 +59,8 @@ def __init__(self, config, experts: List[nn.Module], gate: nn.Module, num_expert
         self.num_experts_per_tok = num_experts_per_tok
         self.gate = gate
         self.experts = nn.ModuleList(experts)
-        
+        self.config=config
+
         # 如果配置中指定了共享专家数量，则构建共享专家分支
         if hasattr(config, "n_shared_experts") and config.n_shared_experts > 0:
             self.shared_expert = nn.Sequential(
@@ -69,34 +70,54 @@ def __init__(self, config, experts: List[nn.Module], gate: nn.Module, num_expert
             )
         else:
             self.shared_expert = None
+        
+        # GPU内存专家选择统计收集器 - 多粒度滑动窗口
+        self.device = next(iter(experts)).w1.weight.device if experts else torch.device('cuda')
+        
+        # 滑动窗口配置
+        self.window_sizes = {
+            'immediate': 100,    # 即时统计 (最近100步)
+            'short': 1000,       # 短期统计 (最近1000步)
+            'medium': 10000,     # 中期统计 (最近10000步)
+            'long': 100000       # 长期统计 (最近100000步)
+        }
+        
+        # GPU统计缓冲区：任务ID -> {窗口类型 -> [专家选择历史]}
+        self.expert_stats_gpu = {}
+        self.step_count = 0
 
-    def forward(self, x: torch.Tensor) -> torch.Tensor:
+    def forward(self, x: torch.Tensor, task_id: int = None) -> torch.Tensor:
         # 保存原始形状后将 x reshape 为二维张量： [batch_size * seq_len, dim]
         original_shape = x.size()
         x = x.view(-1, self.dim)
-        
-        # 计算门控 logits，shape 为 [N, num_experts]，N 为 token 数量
-        gate_logits = self.gate(x)
-        # 选取每个 token 得分最高的 k 个专家
-        weights, indices = torch.topk(gate_logits, self.num_experts_per_tok, dim=1)
-        # 对选中的 logits 做 softmax，获得归一化权重
-        weights = F.softmax(weights, dim=1).to(x.dtype)
-        
-        # 初始化存放专家计算输出的张量
-        expert_output = torch.zeros_like(x)
-        
-        # 遍历所有专家，对被该专家选择的 token 分支进行计算
-        for expert_id in range(self.num_experts):
-            # 通过 where 找到 indices 中等于当前 expert_id 的 token 索引
-            batch_idx, expert_tok_idx = torch.where(indices == expert_id)
-            if batch_idx.numel() == 0:
-                continue
-            token_subset = x[batch_idx]  # 选中的 token，形状 [num_tokens, dim]
-            # 调用当前专家模块计算输出
-            output_expert = self.experts[expert_id](token_subset)
-            # 获取对应 token 的权重，注意 weights 的形状为 [N, num_experts_per_tok]
-            token_weights = weights[batch_idx, expert_tok_idx].unsqueeze(-1)
-            expert_output[batch_idx] += output_expert * token_weights
+        expert_output=x
+        if self.num_experts!=0:
+            # 计算门控 logits，shape 为 [N, num_experts]，N 为 token 数量
+            gate_logits = self.gate(x)
+            # 选取每个 token 得分最高的 k 个专家
+            weights, indices = torch.topk(gate_logits, self.num_experts_per_tok, dim=1)
+            # 对选中的 logits 做 softmax，获得归一化权重
+            weights = F.softmax(weights, dim=1).to(x.dtype)
+            
+            # 收集专家选择统计（仅在训练模式且有task_id时）
+            if self.training and task_id is not None:
+                self._collect_expert_selection_stats(task_id, indices)
+
+            # 初始化存放专家计算输出的张量
+            expert_output = torch.zeros_like(x)
+            
+            # 遍历所有专家，对被该专家选择的 token 分支进行计算
+            for expert_id in range(self.num_experts):
+                # 通过 where 找到 indices 中等于当前 expert_id 的 token 索引
+                batch_idx, expert_tok_idx = torch.where(indices == expert_id)
+                if batch_idx.numel() == 0:
+                    continue
+                token_subset = x[batch_idx]  # 选中的 token，形状 [num_tokens, dim]
+                # 调用当前专家模块计算输出
+                output_expert = self.experts[expert_id](token_subset)
+                # 获取对应 token 的权重，注意 weights 的形状为 [N, num_experts_per_tok]
+                token_weights = weights[batch_idx, expert_tok_idx].unsqueeze(-1)
+                expert_output[batch_idx] += output_expert * token_weights
 
         # 如果使用了共享专家分支，则加上其输出
         if self.shared_expert is not None:
@@ -107,6 +128,76 @@ def forward(self, x: torch.Tensor) -> torch.Tensor:
 
         # 恢复原始形状后返回结果
         return output.view(original_shape)
+    
+    def _collect_expert_selection_stats(self, task_id: int, indices: torch.Tensor):
+        """GPU内存收集专家选择统计 - 多粒度滑动窗口"""
+        self.step_count += 1
+        
+        if task_id not in self.expert_stats_gpu:
+            self.expert_stats_gpu[task_id] = {}
+            for window_type in self.window_sizes.keys():
+                self.expert_stats_gpu[task_id][window_type] = torch.zeros(
+                    self.window_sizes[window_type], 
+                    self.num_experts, 
+                    dtype=torch.float32, 
+                    device=self.device
+                )
+        
+        # 计算当前批次每个专家的选择频次
+        indices_flat = indices.flatten()  # [N*k]
+        expert_counts = torch.zeros(self.num_experts, device=self.device, dtype=torch.float32)
+        for expert_id in range(self.num_experts):
+            expert_counts[expert_id] = (indices_flat == expert_id).sum().float()
+        
+        # 更新所有粒度的滑动窗口
+        for window_type, window_size in self.window_sizes.items():
+            buffer = self.expert_stats_gpu[task_id][window_type]
+            # 滑动窗口：新数据放到最后，旧数据向前移动
+            buffer[:-1] = buffer[1:].clone()
+            buffer[-1] = expert_counts
+    
+    def get_expert_selection_stats(self, task_id: int = None):
+        """获取多粒度专家选择频率统计 - 简化版本：直接返回当前数据"""
+        if task_id is None:
+            # 返回所有任务的统计
+            all_stats = {}
+            for tid in self.expert_stats_gpu.keys():
+                all_stats[tid] = self._compute_task_stats(tid)
+            return all_stats
+        else:
+            # 返回指定任务的统计
+            return self._compute_task_stats(task_id)
+    
+    def _compute_task_stats(self, task_id: int):
+        """计算指定任务的多粒度统计"""
+        if task_id not in self.expert_stats_gpu:
+            return {}
+        
+        stats = {}
+        for window_type, buffer in self.expert_stats_gpu[task_id].items():
+            # 简化版本：直接对所有已有数据求平均，不考虑窗口是否填满
+            # buffer shape: [window_size, num_experts]
+            total_counts = buffer.sum(dim=0)  # [num_experts]
+            total_selections = total_counts.sum()
+            
+            if total_selections > 0:
+                frequencies = total_counts / total_selections
+            else:
+                frequencies = torch.zeros(self.num_experts, device=self.device)
+            
+            stats[window_type] = {
+                'frequencies': frequencies,  # 保持tensor格式
+                'total_counts': total_counts,  # 保持tensor格式  
+                'total_selections': total_selections.item(),
+                'data_points': min(self.step_count, self.window_sizes[window_type])
+            }
+        
+        return stats
+    
+    def reset_expert_selection_stats(self):
+        """重置专家选择统计"""
+        self.expert_stats_gpu.clear()
+        self.step_count = 0
 
 class MoELayerOptimized(nn.Module):
     r"""
diff --git a/lzero/model/unizero_world_models/transformer.py b/lzero/model/unizero_world_models/transformer.py
index ad1265007..4cdd1f113 100644
--- a/lzero/model/unizero_world_models/transformer.py
+++ b/lzero/model/unizero_world_models/transformer.py
@@ -10,18 +10,19 @@
 import math
 from dataclasses import dataclass
 from typing import Optional
-
+from easydict import EasyDict
 import torch
 import torch.nn as nn
 from ding.torch_utils.network import GRUGatingUnit
 from einops import rearrange
 from torch.nn import functional as F
-
+import torch.distributed as dist
 from .kv_caching import KeysValues
 
 from line_profiler import line_profiler
 from lzero.model.common import SimNorm
 import logging
+from typing import Dict, List, Any
 
 class LearnableScale(nn.Module):
     """
@@ -298,6 +299,7 @@ def max_tokens(self):
         return self.tokens_per_block * self.max_blocks
 
 
+
 class Transformer(nn.Module):
     """
     Transformer model class.
@@ -317,12 +319,21 @@ def __init__(self, config: TransformerConfig, task_embed=None) -> None:
         self.config = config
         self.drop = nn.Dropout(config.embed_pdrop)
         self.blocks = nn.ModuleList([Block(config) for _ in range(config.num_layers)])
+        # self.blocks[-1].is_last_block=True
         self.ln_f = nn.LayerNorm(config.embed_dim)
-
+        
+        self.num_blocks=len(self.blocks)
+        self.num_experts=config.num_experts_of_moe_in_transformer
+        
         self.task_embed = task_embed
         self.task_embed_option = self.config.task_embed_option  # Strategy for task embeddings
         self.register_token_shared = True
 
+        self.shared_expert=0
+        if hasattr(config, "n_shared_experts") and config.n_shared_experts > 0:
+           self.shared_expert = config.n_shared_experts
+        
+
         # TODO: 共享模式下，所有任务使用同一参数
 
         if self.task_embed_option == "register_task_embed":
@@ -399,7 +410,6 @@ def generate_empty_keys_values(self, n: int, max_tokens: int) -> KeysValues:
         device = self.ln_f.weight.device  # Assumption: All submodules are on the same device
         return KeysValues(n, self.config.num_heads, max_tokens, self.config.embed_dim, self.config.num_layers, device)
 
-
     #@profile
     def forward(
         self,
@@ -431,9 +441,11 @@ def forward(
 
         # 逐层调用
         for i, block in enumerate(self.blocks):
+            # 标识是否为最后一层
+            is_last_block = (i == len(self.blocks) - 1)
             x = block(x,
-                      None if past_keys_values is None else past_keys_values[i],
-                      valid_context_lengths)
+                    None if past_keys_values is None else past_keys_values[i],
+                    valid_context_lengths, is_last_block=is_last_block, task_id=task_id)
 
         # 最后层 LN
         x = self.ln_f(x)
@@ -450,6 +462,178 @@ def forward(
             x = x[:, :-self.register_token_num, :]
 
         return x
+    
+    def get_expert_selection_stats(self, task_id: int = None):
+        """获取最后一个Block的MOE专家选择统计"""
+        if len(self.blocks) == 0:
+            return {}
+        
+        last_block = self.blocks[-1]
+        
+        # 检查最后一个Block是否有MoE层
+        if not hasattr(last_block, 'feed_forward') or not hasattr(last_block.feed_forward, 'get_expert_selection_stats'):
+            return {}
+        
+        return last_block.feed_forward.get_expert_selection_stats(task_id)
+    
+    def reset_expert_selection_stats(self):
+        """重置最后一个Block的MOE专家选择统计"""
+        if len(self.blocks) == 0:
+            return
+        
+        last_block = self.blocks[-1]
+        
+        # 检查最后一个Block是否有MoE层
+        if hasattr(last_block, 'feed_forward') and hasattr(last_block.feed_forward, 'reset_expert_selection_stats'):
+            last_block.feed_forward.reset_expert_selection_stats()
+    
+    # modified by tangjia : 
+    # def has_shared_experts(self) -> bool:
+    #     """
+    #     检查Transformer是否使用了共享专家
+        
+    #     Returns:
+    #         bool: 如果任何一个block使用了共享专家则返回True，否则返回False
+    #     """
+    #     for block in self.blocks:
+    #         if hasattr(block, 'feed_forward') and hasattr(block.feed_forward, 'shared_expert'):
+    #             if block.feed_forward.shared_expert is not None:
+    #                 return True
+    #     return False
+    
+    
+
+    def get_shared_expert_gradients_by_block_id(self, block_id: int) -> Dict[str, torch.Tensor]:
+        """
+        获取指定Block上共享专家的参数梯度
+        
+        Arguments:
+            block_id (int): Block的ID (0到num_layers-1)
+            
+        Returns:
+            Dict[str, torch.Tensor]: 包含参数名和对应梯度的字典
+            
+        Raises:
+            ValueError: 当block_id超出范围或block没有共享专家时
+        """
+        if block_id < 0 or block_id >= len(self.blocks):
+            raise ValueError(f"Block ID {block_id} out of range. Available blocks: 0-{len(self.blocks)-1}")
+        
+        block = self.blocks[block_id]
+        
+        # 检查是否有feed_forward属性且支持MoE
+        if not hasattr(block, 'feed_forward'):
+            raise ValueError(f"Block {block_id} doesn't have feed_forward layer")
+        
+        # 检查是否有共享专家
+        if not hasattr(block.feed_forward, 'shared_expert') or block.feed_forward.shared_expert is None:
+            raise ValueError(f"Block {block_id} doesn't have shared expert")
+        
+        # 收集共享专家的梯度
+        gradients = {}
+        shared_expert = block.feed_forward.shared_expert
+        
+        for name, param in shared_expert.named_parameters():
+            if param.grad is not None:
+                gradients[f"shared_expert.{name}"] = param.grad.clone()
+            else:
+                gradients[f"shared_expert.{name}"] = None
+                
+        return gradients
+
+    
+
+    def get_expert_gradients_for_last_block(self) -> Dict[str, torch.Tensor]:
+        """
+        获取最后一个Block上所有专家的参数梯度
+        """
+        if len(self.blocks) == 0:
+            return []
+        
+        # 获取最后一个Block
+        last_block = self.blocks[-1]
+        gradients = []
+        
+        # 检查是否有feed_forward属性
+        if not hasattr(last_block, 'feed_forward'):
+            return gradients
+        
+        feed_forward = last_block.feed_forward
+        
+        # 检查是否是MoE结构
+        if hasattr(feed_forward, 'experts') and feed_forward.experts is not None:
+            # 收集所有独立专家的梯度
+            for expert_idx, expert in enumerate(feed_forward.experts):
+                expert_gradients = []
+                for name, param in expert.named_parameters(): #    
+                    if param.grad is not None:
+                        expert_gradients.append(param.grad.clone().view(-1))
+                    else:
+                        expert_gradients.append(torch.zeros_like(param).view(-1))
+                expert_gradients=torch.cat(expert_gradients, dim=0)
+                gradients.append(expert_gradients)
+
+        return gradients
+
+
+    
+    # added by tangjia :
+    def get_block_before_moe_gradients(self) -> Dict[int, torch.Tensor]:
+        # 把最后一个返回即可
+        
+        return self.blocks[-1].block_before_moe_grad
+          
+
+    def get_last_shared_expert_gradients(self) -> List[Dict[str, torch.Tensor]]:
+        """
+        获取所有Block上共享专家的参数梯度
+        
+        Returns:
+            List[Dict[str, torch.Tensor]]: 包含所有共享专家梯度的列表，
+                                         每个元素是一个字典，包含参数名和对应梯度
+        """
+        if len(self.blocks) == 0:
+            return []
+        
+        # 获取最后一个Block
+        last_block = self.blocks[-1]
+
+       
+        shared_expert_gradients = []
+        shared_expert = last_block.feed_forward.shared_expert
+        
+        for name, param in shared_expert.named_parameters():
+            if param.grad is not None:
+                shared_expert_gradients.append(param.grad.clone().view(-1))
+            else:
+                shared_expert_gradients.append(torch.zeros_like(param).view(-1))
+
+        return torch.concat(shared_expert_gradients,dim=0)
+    
+    def get_last_block_expert_selection_stats(self):
+        """获取最后一个Block的MOE专家选择统计"""
+        if len(self.blocks) == 0:
+            return {}
+        
+        last_block = self.blocks[-1]
+        
+        # 检查最后一层是否有MOE
+        if hasattr(last_block, 'feed_forward') and hasattr(last_block.feed_forward, 'get_expert_selection_stats'):
+            return last_block.feed_forward.get_expert_selection_stats()
+        else:
+            return {}
+    
+    def reset_last_block_expert_selection_stats(self):
+        """重置最后一个Block的MOE专家选择统计"""
+        if len(self.blocks) == 0:
+            return
+        
+        last_block = self.blocks[-1]
+        
+        # 检查最后一层是否有MOE
+        if hasattr(last_block, 'feed_forward') and hasattr(last_block.feed_forward, 'reset_expert_selection_stats'):
+            last_block.feed_forward.reset_expert_selection_stats()
+
 
 
 
@@ -484,8 +668,8 @@ def __init__(self, config: TransformerConfig) -> None:
         self.ln1 = nn.LayerNorm(config.embed_dim)
         self.ln2 = nn.LayerNorm(config.embed_dim)
         self.attn = SelfAttention(config)
-
-
+        self.config=config
+        
         if config.moe_in_transformer:
             from .moe import MoELayer, MultiplicationFeedForward
             # 创Create multiple independent MLP instances
@@ -546,13 +730,14 @@ def __init__(self, config: TransformerConfig) -> None:
                 _maybe_wrap_linear(nn.Linear(config.embed_dim, 4 * config.embed_dim), config, "feed_forward"),
                 nn.GELU(approximate='tanh'),
                 _maybe_wrap_linear(nn.Linear(4 * config.embed_dim, config.embed_dim), config, "feed_forward"),
-                nn.Dropout(config.resid_pdrop),
+                # nn.Dropout(config.resid_pdrop),
             )
+        self.block_before_moe_grad = None
 
     def forward(self, x: torch.Tensor, past_keys_values: Optional[KeysValues] = None,
-                valid_context_lengths: Optional[torch.Tensor] = None) -> torch.Tensor:
+                valid_context_lengths: Optional[torch.Tensor] = None, is_last_block=False, task_id: int = 0) -> torch.Tensor:
         """
-        Forward pass of the Transformer block.
+        Forward pass of the Transformer block.self.is_last_block
 
         Arguments:
             - x (:obj:`torch.Tensor`): Input tensor of shape (batch_size, seq_length, embed_dim).
@@ -562,15 +747,31 @@ def forward(self, x: torch.Tensor, past_keys_values: Optional[KeysValues] = None
         Returns:
             - torch.Tensor: Output tensor of shape (batch_size, seq_length, embed_dim).
         """
+        
         x_attn = self.attn(self.ln1(x), past_keys_values, valid_context_lengths)
         if self.gru_gating:
             x = self.gate1(x, x_attn)
             x = self.gate2(x, self.feed_forward(self.ln2(x)))
         else:
             x = x + x_attn
-            x = x + self.feed_forward(self.ln2(x))
+            block_before_moe=self.ln2(x)
+            if self.training and is_last_block:
+                # 清除之前的梯度
+                self.block_before_moe_grad = None
+                # 使用更安全的hook注册方式，避免闭包问题
+                def grad_hook(grad):
+                    self.block_before_moe_grad = grad.clone()  # 克隆梯度避免引用问题
+                    return None
+                block_before_moe.register_hook(grad_hook)
+            
+            # 在最后一层且使用MOE时，传递task_id以收集专家选择统计
+            if is_last_block and self.config.multiplication_moe_in_transformer and hasattr(self.feed_forward, 'forward'):
+                x = x + self.feed_forward(block_before_moe, task_id=task_id)
+            else:
+                x = x + self.feed_forward(block_before_moe)
 
         return x
+    
 
 
 class SelfAttention(nn.Module):
@@ -762,4 +963,4 @@ def get_attention_map(self, x: torch.Tensor, kv_cache: Optional[KeysValues] = No
         att = att.masked_fill(mask == 0, float('-inf'))
         att = F.softmax(att, dim=-1)
 
-        return att
\ No newline at end of file
+        return att
diff --git a/lzero/model/unizero_world_models/world_model_multitask.py b/lzero/model/unizero_world_models/world_model_multitask.py
index ecb583504..fd12b6b07 100644
--- a/lzero/model/unizero_world_models/world_model_multitask.py
+++ b/lzero/model/unizero_world_models/world_model_multitask.py
@@ -183,7 +183,8 @@ def __init__(self, config: TransformerConfig, tokenizer) -> None:
             # TODO: check the effect of SimNorm
             # self.act_embedding_table = nn.Sequential(
             #     nn.Linear(config.action_space_size, config.embed_dim, device=self.device, bias=False),
-            #     SimNorm(simnorm_dim=self.group_size))
+            #     SimNorm(simnorm_dim=self.group_size)
+            # )
             # print(f'config.action_space_size_list:{config.action_space_size_list}')
             self.act_embedding_table = nn.ModuleList([
                 nn.Sequential(
@@ -319,6 +320,9 @@ def __init__(self, config: TransformerConfig, tokenizer) -> None:
         self.reanalyze_phase = False
         self._rank = get_rank()
 
+        # tangjia
+        self.obs_embeddings_grad = None # 保留参数
+
     def _scale_grad(self, grad: torch.Tensor) -> torch.Tensor:
         # ① 1/k 缩放；若想更保守可用 1/√k
         # return grad / self.task_num
@@ -1024,7 +1028,7 @@ def _transformer_pass(self, sequences, past_keys_values, kvcache_independent, va
                  enumerate(past_keys_values)]
             return torch.cat(x, dim=0)
         else:
-            return self.transformer(sequences, past_keys_values, valid_context_lengths=valid_context_lengths)
+            return self.transformer(sequences, past_keys_values, valid_context_lengths=valid_context_lengths,task_id=task_id)
 
     #@profile
     @torch.no_grad()
@@ -1796,6 +1800,9 @@ def gather_and_plot(self, local_embeddings, local_task_ids, local_observations):
     def compute_loss(self, batch, target_tokenizer: Tokenizer = None, inverse_scalar_transform_handle=None, task_id = 0, **kwargs: Any) -> LossWithIntermediateLosses:
         # Encode observations into latent state representations
         obs_embeddings = self.tokenizer.encode_to_obs_embeddings(batch['observations'], task_id=task_id)
+        
+        obs_embeddings.register_hook(lambda grad: setattr(self, 'obs_embeddings_grad', grad)) #note: register hook to save gradients of obs_embeddings
+        
 
         if self.analysis_tsne:
             # =========== tsne analysis ===========
diff --git a/lzero/policy/unizero_multitask.py b/lzero/policy/unizero_multitask.py
index 031afb9fd..2e3228dbb 100644
--- a/lzero/policy/unizero_multitask.py
+++ b/lzero/policy/unizero_multitask.py
@@ -14,10 +14,10 @@
 from lzero.policy import scalar_transform, InverseScalarTransform, phi_transform, \
     DiscreteSupport, to_torch_float_tensor, mz_network_output_unpack, select_action, prepare_obs
 from lzero.policy.unizero import UniZeroPolicy
-from .utils import configure_optimizers_nanogpt
+from .utils import configure_optimizers_nanogpt, compute_gradient_conflict_distributed, log_gradient_conflict_heatmaps_distributed_fast
 import sys
 
-sys.path.append('/cpfs04/user/puyuan/code/LibMTL')
+# sys.path.append('/cpfs04/user/puyuan/code/LibMTL')
 # sys.path.append('/fs-computility/niuyazhe/puyuan/code/LibMTL')
 
 from LibMTL.weighting.MoCo_unizero import MoCo as GradCorrect
@@ -25,10 +25,11 @@
 # from LibMTL.weighting.moco_fast import FastMoCo, MoCoCfg
 from LibMTL.weighting.moco_fast_mem_eff import FastMoCoMemEff as FastMoCo
 from LibMTL.weighting.moco_fast_mem_eff import MoCoCfg
+import torch.distributed as dist
+
 
 
 
-import torch.distributed as dist
 
 # ------------------------------------------------------------
 # 1. 额外增加 learner 专用 process-group
@@ -130,7 +131,7 @@ def zero_grad(self, set_to_none=False):
         self.act_embedding_table.zero_grad(set_to_none=set_to_none)
 
 
-
+from line_profiler import LineProfiler
 @POLICY_REGISTRY.register('unizero_multitask')
 class UniZeroMTPolicy(UniZeroPolicy):
     """
@@ -140,7 +141,19 @@ class UniZeroMTPolicy(UniZeroPolicy):
         by addressing the limitations found in MuZero-style algorithms, particularly in environments requiring the
         capture of long-term dependencies. More details can be found in https://arxiv.org/abs/2406.10667.
     """
-
+    def __init__(self, cfg, model = None, enable_field = None):
+        super().__init__(cfg, model, enable_field)
+        self.step=0
+        self.save_freq=200
+        self.use_moe=False
+        
+        self.cal_profile=False
+        if self.cal_profile:
+            self.profiler=LineProfiler()
+            self.profiler.add_function(self._forward_learn)
+            self.profiler.enable_by_count()
+       
+        
     # The default_config for UniZero policy.
     config = dict(
         type='unizero_multitask',
@@ -320,8 +333,10 @@ class UniZeroMTPolicy(UniZeroPolicy):
         n_episode=8,
         # (int) The number of num_segments in each collecting stage when use muzero_segment_collector.
         num_segments=8,
-        # (int) the number of simulations in MCTS.
+        # (int) the number of simulations in MCTS for collect.
         num_simulations=50,
+        # (int) the number of simulations in MCTS for eval. If not set, use num_simulations.
+        eval_num_simulations=50,
         # (float) Discount factor (gamma) for returns.
         discount_factor=0.997,
         # (int) The number of steps for calculating target q_value.
@@ -418,7 +433,7 @@ def _init_learn(self) -> None:
             device_type=self._cfg.device,
             betas=(0.9, 0.95),
         )
-
+        # self.a=1
         if self._cfg.cos_lr_scheduler or self._cfg.piecewise_decay_lr_scheduler:
             from torch.optim.lr_scheduler import CosineAnnealingLR, StepLR
 
@@ -548,7 +563,7 @@ def _retain_prev_if_zero(self, name: str,
             self._prev_plasticity_metrics[name] = value
             return value
 
-
+    
     #@profile
     def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_grad=False) -> Dict[str, Union[float, int]]:
         """
@@ -605,7 +620,7 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
                 obs_batch, obs_target_batch = prepare_obs_stack_for_unizero(obs_batch_ori, self._cfg)
             else:
                 obs_batch, obs_target_batch = prepare_obs(obs_batch_ori, self._cfg)
-
+            
             # Apply augmentations if needed
             if self._cfg.use_augmentation:
                 obs_batch = self.image_transforms.transform(obs_batch)
@@ -637,7 +652,7 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
             # Transform rewards and values to their scaled forms
             transformed_target_reward = scalar_transform(target_reward)
             transformed_target_value = scalar_transform(target_value)
-
+            
             # Convert to categorical distributions
             target_reward_categorical = phi_transform(self.reward_support, transformed_target_reward)
             target_value_categorical = phi_transform(self.value_support, transformed_target_value)
@@ -668,8 +683,9 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
 
             # Update world model
             intermediate_losses = defaultdict(float)
+            
             losses = self._learn_model.world_model.compute_loss(
-                batch_for_gpt, self._target_model.world_model.tokenizer, self.inverse_scalar_transform_handle, task_id=task_id
+                batch_for_gpt, self._target_model.world_model.tokenizer, self.inverse_scalar_transform_handle, task_id=task_id# 是否需要统计expert 的选择
             )
 
             weighted_total_loss += losses.loss_total  # TODO
@@ -771,9 +787,139 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
 
         # Core learn model update step
         self._optimizer_world_model.zero_grad()
+        
+
+        # ===================================modified by tangjia========================================
+        
+      
+        self._learn_model.world_model.tokenizer.encoder[0].grad = None
+        # encoder_grad=self._learn_model.world_model.obs_embeddings_grad.view(-1)
+        # world_size = dist.get_world_size()
+        # gathered_grads = [torch.zeros_like(encoder_grad) for _ in range(world_size)]
+
+        multi_gpu = dist.is_initialized() and self._cfg.multi_gpu
+        rank = dist.get_rank() if multi_gpu else 0
+        
+        self.log_conflict_var=False
+        self.log_conflict_matrix=False
+        if self.step % self.save_freq==0:
+            self.log_conflict_var=True
+        # if self.step % (self.save_freq * 100) == 0:
+        #     self.log_conflict_matrix=True
+        
+        if self.log_conflict_var:
+            matrix_dict={}
+            num_experts= self._learn_model.world_model.transformer.num_experts
+
+
+            local_task_num = len(losses_list)
+            local_encoder_grad_list = []
+            local_before_moe_grad_list = []
+            local_shared_expert_grad_list = []
+            local_last_block_expert_grad_list = [[] for _ in range(num_experts)] 
+            
+            print(f'Rank {rank} 正在收集梯度')
+            gradient_conflict_log_dict = {}
+
+            for i in range(local_task_num):
+                # 每次计算前清零梯度，确保梯度独立
+                self._optimizer_world_model.zero_grad()
+                # 计算encoder上的梯度冲突
+                losses_list[i].backward(retain_graph=True) #保留梯度图，因为后面还有backward
+                local_encoder_grad_list.append(self._learn_model.world_model.obs_embeddings_grad.view(-1).detach().clone())
+                
+                
+                # self_attention 最后一个transformer block
+                before_moe_grad=self._learn_model.world_model.transformer.get_block_before_moe_gradients()
+                local_before_moe_grad_list.append(before_moe_grad.view(-1).detach().clone())
+                
+                # 获取共享 expert 的梯度 
+                if self._learn_model.world_model.transformer.shared_expert>0 :
+                    # get_shared_expert_gradients_by_block_id
+                    shared_expert_grad_for_last_task= self._learn_model.world_model.transformer.get_last_shared_expert_gradients() # 获取最后一个 block 的共享 expert 梯度
+                    local_shared_expert_grad_list.append(shared_expert_grad_for_last_task)
+                    
+                # 计算最后一个Block上的Expert上的梯度的冲突 num_blocks
+                if num_experts>0:
+                    last_block_expert_grad_list = self._learn_model.world_model.transformer.get_expert_gradients_for_last_block()
+                    for j in range(num_experts):
+                        local_last_block_expert_grad_list[j].append(last_block_expert_grad_list[j])
+
+
+            
+            print(f'Rank {rank} 正在计算梯度冲突')
+                
+            # 清零共享参数梯度，防止梯度累加
+            self._optimizer_world_model.zero_grad()
+            
+            print(f'Rank {rank} 正在计算attention梯度冲突')
+            # 1. 计算attention 之后 MOE 之前的梯度的冲突
+            local_before_moe_grad_list=torch.stack(local_before_moe_grad_list,dim=0) # shape: (local_task_num, encoder_grad_dim)
+            before_moe_grad_conflict_ddp=compute_gradient_conflict_distributed(local_before_moe_grad_list, device=self._cfg.device)
+            gradient_conflict_log_dict['avg_before_moe_grad_conflict'] = before_moe_grad_conflict_ddp.avg_conflict_score if before_moe_grad_conflict_ddp is not None else 0
+            gradient_conflict_log_dict['max_before_moe_grad_conflict'] = before_moe_grad_conflict_ddp.max_conflict_score if before_moe_grad_conflict_ddp is not None else 0
+            if self.log_conflict_matrix and before_moe_grad_conflict_ddp is not None :
+                matrix_dict['before_moe_grad_conflict_matrix']=before_moe_grad_conflict_ddp.cosine_similarity_matrix
+            
+            
+            
+            # cosine_similarity_matrix  self.logger
+             
+            
+            print(f'Rank {rank} 正在计算encoder梯度冲突')
+            # 2. 计算encoder 的梯度的冲突
+            local_encoder_grad_list=torch.stack(local_encoder_grad_list,dim=0) # shape: (local_task_num, encoder_grad_dim)
+            encoder_grad_conflict_ddp=compute_gradient_conflict_distributed(local_encoder_grad_list, device=self._cfg.device)
+            gradient_conflict_log_dict['avg_encoder_grad_conflict'] = encoder_grad_conflict_ddp.avg_conflict_score if encoder_grad_conflict_ddp is not None else 0
+            gradient_conflict_log_dict['max_encoder_grad_conflict'] = encoder_grad_conflict_ddp.max_conflict_score if encoder_grad_conflict_ddp is not None else 0
+            if self.log_conflict_matrix and encoder_grad_conflict_ddp is not None:
+                matrix_dict['encoder_grad_conflict_matrix']=encoder_grad_conflict_ddp.cosine_similarity_matrix 
+
+
+            print(f'Rank {rank} 正在计算共享expert梯度冲突')
+            # 3.如果有共享expert 计算共享expert 上的梯度的冲突 
+            if self._learn_model.world_model.transformer.shared_expert>0 :
+                local_shared_expert_grad_list=torch.stack(local_shared_expert_grad_list,dim=0)
+                shared_expert_grad_conflict= compute_gradient_conflict_distributed(local_shared_expert_grad_list, device=self._cfg.device) if len(local_shared_expert_grad_list)>0 else None
+                gradient_conflict_log_dict['avg_shared_expert_grad_conflict'] = shared_expert_grad_conflict.avg_conflict_score if shared_expert_grad_conflict is not None else 0
+                gradient_conflict_log_dict['max_shared_expert_grad_conflict'] = shared_expert_grad_conflict.max_conflict_score if shared_expert_grad_conflict is not None else 0
+
+                
+               
+                if self.log_conflict_matrix and shared_expert_grad_conflict is not None:
+                    matrix_dict['shared_expert_grad_conflict_matrix']=shared_expert_grad_conflict.cosine_similarity_matrix 
+
+            # 4. last block的梯度的冲突
+            last_block_expert_grad_conflict_ddp_list=[]
+            if num_experts>0:
+                for i in range(num_experts):
+                    # 将每个任务的最后一个 block 的 expert 梯度堆叠起来
+                    local_last_block_expert_grad_list[i]=torch.stack(local_last_block_expert_grad_list[i],dim=0)
+                    # 计算每个 expert 的梯度的冲突
+                    expert_conflict=compute_gradient_conflict_distributed(local_last_block_expert_grad_list[i], device=self._cfg.device)
+                    last_block_expert_grad_conflict_ddp_list.append(expert_conflict)
+                    gradient_conflict_log_dict[f'avg_expert_{i}_grad_conflict'] = expert_conflict.avg_conflict_score if expert_conflict is not None else 0
+                    gradient_conflict_log_dict[f'max_expert_{i}_grad_conflict'] = expert_conflict.max_conflict_score if expert_conflict is not None else 0
+                    
+                    if self.log_conflict_matrix and expert_conflict is not None:
+                        matrix_dict[f'expert_{i}_grad_conflict_matrix']=shared_expert_grad_conflict.cosine_similarity_matrix 
+
+                all_moe_gradient=torch.cat(local_last_block_expert_grad_list, dim=1)    
+                if self._learn_model.world_model.transformer.shared_expert>0 :
+                    all_moe_gradient=torch.cat((local_shared_expert_grad_list,all_moe_gradient), dim=1)
+                all_moe_gradient_ddp=compute_gradient_conflict_distributed(all_moe_gradient, device=self._cfg.device)
+                
+                gradient_conflict_log_dict['avg_moe_layer_grad_conflict'] = all_moe_gradient_ddp.avg_conflict_score if all_moe_gradient_ddp is not None else 0
+                gradient_conflict_log_dict['max_moe_layer_grad_conflict'] = all_moe_gradient_ddp.max_conflict_score if all_moe_gradient_ddp is not None else 0
+                if self.log_conflict_matrix and all_moe_gradient_ddp is not None:
+                    matrix_dict['max_moe_layer_grad_conflict_matrix']=all_moe_gradient_ddp.cosine_similarity_matrix 
+
+        # =================================== end modified ========================================
 
         # 假设每个进程计算出的 losses_list 为可求梯度的 tensor list，比如多个标量 loss 组成的列表
         # 例如 losses_list = [loss1, loss2, ...]，其中每个 loss_i 都是形如 (1,) 的 tensor 且 requires_grad=True
+
+        self._optimizer_world_model.zero_grad()
         if self._cfg.use_moco:
             # 调用 MoCo backward，由 grad_correct 中的 backward 实现梯度校正
             if self._cfg.moco_version=="v0":
@@ -790,6 +936,8 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
             lambd = torch.tensor([0. for _ in range(self.task_num_for_current_rank)], device=self._cfg.device)
             weighted_total_loss.backward()
 
+        # print(f'Rank {rank} 正在反向传播')
+
         # TODO: 使用 MoCo 或 CAGrad 来计算梯度和权重
         #  ============= for CAGrad and MoCo =============
         # lambd = self.grad_correct.backward(losses=losses_list, **self._cfg.grad_correct_params)
@@ -803,7 +951,7 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
         #     print('name, param.mean(), param.std():', name, param.mean(), param.std())
         #     if param.requires_grad:
         #         print(name, param.grad.norm())
-
+    
         if self._cfg.analysis_sim_norm:
             del self.l2_norm_before, self.l2_norm_after, self.grad_norm_before, self.grad_norm_after
             self.l2_norm_before, self.l2_norm_after, self.grad_norm_before, self.grad_norm_after = self._learn_model.encoder_hook.analyze()
@@ -816,14 +964,9 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
             #  =========== NOTE: 对于一个GPU上所有任务都解决了的情况，为了ddp同步仍然调用train但是grad应该清零 ===========
             self._optimizer_world_model.zero_grad()
             # print(f"ignore_grad")
-
-        # if self._cfg.multi_gpu:
-        #     # Very important to sync gradients before updating the model
-        #     # rank = get_rank()
-        #     # print(f'Rank {rank} train task_id: {self._cfg.task_id} sync grad begin...')
-        #     self.sync_gradients(self._learn_model)
-        #     # print(f'Rank {rank} train task_id: {self._cfg.task_id} sync grad end...')
-
+        
+        
+        # dist.barrier()  # 确保所有进程都完成了梯度计算
         if self._cfg.multi_gpu:
             # if not self._cfg.use_moco or self._cfg.only_use_moco_stats:
             #     self.sync_gradients(self._learn_model)
@@ -870,6 +1013,22 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
             # 'target_policy_entropy': average_target_policy_entropy,
             'total_grad_norm_before_clip_wm': total_grad_norm_before_clip_wm.item(),
         }
+        if self.log_conflict_matrix:
+            
+            # matrix_dict
+            # 转换为list，准备分布式处理
+            matrix_list = list(matrix_dict.items())
+            log_gradient_conflict_heatmaps_distributed_fast(self.logger, matrix_list, self.step)
+            
+        if self.log_conflict_var:    
+            # 在TensorBoard中记录gradient_conflict_log_dict中的标量数据
+            for key, value in gradient_conflict_log_dict.items():
+                self.logger.add_scalar(f'gradient_conflict/{key}', value, self.step)
+
+ 
+            
+        # print(f'Rank {rank} 正在根据冲突记录日志')
+        # print(gradient_conflict_log_dict)
 
         # 生成任务相关的损失字典，并为每个任务相关的 loss 添加前缀 "noreduce_"
         # multi_task_loss_dicts = {
@@ -936,9 +1095,24 @@ def _forward_learn(self, data: Tuple[torch.Tensor], task_weights=None, ignore_gr
             }
             # 合并两个字典
             return_loss_dict.update(multi_task_loss_dicts)
-        # print(f'return_loss_dict:{return_loss_dict}')
 
-        # 返回最终的损失字典
+
+        print(f"{self.step}============y============")
+        
+        
+        # if self.step==100:
+        #     if self.cal_profile:
+        #         self.profiler.disable_by_count()
+        #         output_filename = f'profile_results.rank{rank}.txt'
+        #         # 将分析结果打印到指定的文件中
+        #         with open(output_filename, 'w') as f:
+        #             self.profiler.print_stats(stream=f)
+        #     exit()
+        
+        self.step+=1
+        print(f"{rank} 结束训练 == 正在同步")
+        dist.barrier()
+        print(f"{rank} 结束训练 ==")
         return return_loss_dict
 
     def monitor_weights_and_grads(self, model):
@@ -979,6 +1153,10 @@ def _monitor_vars_learn(self, num_tasks=2) -> List[str]:
             tensorboard according to the return value ``_forward_learn``.
             If num_tasks is provided, generate monitored variables for each task.
         """
+        # rank= dist.get_rank() if dist.is_initialized() else 0
+        # print(f"Rank {rank} 开始记录日志1111")
+
+
         # Basic monitored variables that do not depend on the number of tasks
         monitored_vars = [
             'Current_GPU',
@@ -988,7 +1166,26 @@ def _monitor_vars_learn(self, num_tasks=2) -> List[str]:
             'cur_lr_world_model',
             'weighted_total_loss',
             'total_grad_norm_before_clip_wm',
+            # modified by tangjia
+            # 'avg_encoder_grad_conflict',
+            # 'avg_before_moe_grad_conflict',
+            # 'avg_shared_expert_grad_conflict',
+
+            # 'max_encoder_grad_conflict',
+            # 'max_before_moe_grad_conflict',
+            # 'max_shared_expert_grad_conflict',
+            # "avg_moe_layer_grad_conflict",
+            # "max_moe_layer_grad_conflict",
         ]
+        
+        # # # If the model uses MoE, add expert gradient conflict variables
+        # if self._learn_model.world_model.transformer.shared_expert > 0:
+        #     monitored_vars.append('avg_shared_expert_grad_conflict')
+        #     monitored_vars.append('max_shared_expert_grad_conflict')
+        # for i in range(self._learn_model.world_model.transformer.num_experts):
+        #     monitored_vars.append(f'avg_expert_{i}_grad_conflict')
+        #     monitored_vars.append(f'max_expert_{i}_grad_conflict')
+
 
         # rank = get_rank()
         task_specific_vars = [
@@ -1077,8 +1274,13 @@ def _monitor_vars_learn(self, num_tasks=2) -> List[str]:
         else:
             # If num_tasks is not provided, we assume there's only one task and keep the original variable names
             monitored_vars.extend(task_specific_vars)
-
+        
+        
+        rank= dist.get_rank()
+        # dist.barrier()
+        print(f"Rank {rank} 日志记录完毕")
         return monitored_vars
+        
 
     #@profile
     def _forward_collect(
@@ -1212,10 +1414,23 @@ def _init_eval(self) -> None:
             Evaluate mode init method. Called by ``self.__init__``. Initialize the eval model and MCTS utils.
         """
         self._eval_model = self._model
+        
+        # 创建eval专用的配置对象，使用eval_num_simulations
+        # eval_cfg = copy.deepcopy(self._cfg)
+        # eval_num_simulations = getattr(self._cfg, 'eval_num_simulations', self._cfg.num_simulations)
+        # eval_cfg.num_simulations = eval_num_simulations
+        
+        # # 打印collect和eval的num_simulations设置
+        # print(f"=== MCTS Simulations Config ===")
+        # print(f"Collect num_simulations: {self._cfg.num_simulations}")
+        # print(f"Eval num_simulations: {eval_num_simulations}")
+        # print(f"===============================")
+        
         if self._cfg.mcts_ctree:
-            self._mcts_eval = MCTSCtree(self._cfg)
+            self._mcts_eval = MCTSCtree(self._cfg,eval=True)  # 使用eval专用配置
         else:
-            self._mcts_eval = MCTSPtree(self._cfg)
+            self._mcts_eval = MCTSPtree(self._cfg)   # 使用eval专用配置
+        
         self.evaluator_env_num = self._cfg.evaluator_env_num
 
         if self._cfg.model.model_type == 'conv':
@@ -1487,9 +1702,9 @@ def _load_state_dict_learn(self, state_dict: Dict[str, Any], finetune_components
             - finetune_components (:obj:`List[str]`, optional): A list of component names that will remain trainable after loading.
                 For example, it can include "encoder", "transformer", or both. The components not in this list will be frozen.
         """
-        # finetune_components = [] # load-enc-trans_finetune-head
-        # finetune_components = ['transformer'] # load-enc-trans_finetune-trans-head
-        finetune_components = ["representation_network", "encoder"] # load-enc-trans_finetune-encoder-head
+        # # finetune_components = [] # load-enc-trans_finetune-head
+        # # finetune_components = ['transformer'] # load-enc-trans_finetune-trans-head
+        # finetune_components = ["representation_network", "encoder"] # load-enc-trans_finetune-encoder-head
 
         # 定义需要排除的参数前缀，即不加载这些参数
         exclude_prefixes = [
@@ -1513,6 +1728,18 @@ def filter_state_dict(state_dict_loader: Dict[str, Any], exclude_prefixes: list,
             """
             filtered = {}
             for k, v in state_dict_loader.items():
+                # if any(prefix in k for prefix in ['head_policy_multi_task.', 'head_value_multi_task.', 'head_rewards_multi_task.', 'head_observations_multi_task.']):
+                #     # 提取任务ID
+                #     import re
+                #     match = re.search(r'\.(\d+)\.', k)
+                #     if match:
+                #         task_id = int(match.group(1))
+                #         if task_id <=0:
+                #             filtered[k] = v
+                #             print(f"include {k}")
+                #             continue
+                
+                
                 if any(k.startswith(prefix) for prefix in exclude_prefixes):
                     print(f"Excluding parameter: {k}")  # 调试用，查看哪些参数被排除
                     continue
diff --git a/lzero/policy/utils.py b/lzero/policy/utils.py
index 7cf259c0c..f621ac2df 100644
--- a/lzero/policy/utils.py
+++ b/lzero/policy/utils.py
@@ -695,3 +695,451 @@ def mz_network_output_unpack(network_output: Dict) -> Tuple:
     value = network_output.value  # shape: (batch_size, support_support_size)
     policy_logits = network_output.policy_logits  # shape: (batch_size, action_space_size)
     return latent_state, reward, value, policy_logits
+
+
+# ==================== modified by tangjia=============================
+import torch.distributed as dist
+
+# ==================== 梯度冲突矩阵可视化模块 =============================
+# 预导入matplotlib模块，避免重复导入开销
+import matplotlib
+matplotlib.use('Agg')
+
+# 全局figure缓存
+_GLOBAL_FIG_CACHE = None
+_GLOBAL_AX_CACHE = None
+
+def _get_or_create_figure(figsize=(8, 6)):
+    """获取或创建复用的matplotlib figure"""
+    global _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE
+    if _GLOBAL_FIG_CACHE is None:
+        _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE = plt.subplots(figsize=figsize)
+    return _GLOBAL_FIG_CACHE, _GLOBAL_AX_CACHE
+
+def _fast_tensor_heatmap(matrix_np, tag):
+    """快速生成热力图tensor - 跳过文本标注以提升性能，移除对角线元素"""
+    # 复制矩阵以避免修改原始数据
+    matrix_no_diag = matrix_np.copy()
+    
+    # 移除对角线元素（设为0）
+    if matrix_no_diag.shape[0] == matrix_no_diag.shape[1]:  # 方阵才有对角线
+        np.fill_diagonal(matrix_no_diag, 0)
+    
+    # 创建新的figure而不是复用全局缓存
+    fig, ax = plt.subplots(figsize=(8, 6))
+    
+    # 直接使用矩阵，对角线已设为0
+    # 使用Blues colormap，调整颜色范围为-0.2到0.2
+    im = ax.imshow(matrix_no_diag, cmap='Blues', vmin=-0.2, vmax=0.2)
+    ax.set_title(f'{tag}', fontsize=12)
+    
+    # 只在小矩阵时添加数值标注（避免O(n²)开销）
+    if matrix_no_diag.size <= 64:  # 8x8或更小
+        for row in range(matrix_no_diag.shape[0]):
+            for col in range(matrix_no_diag.shape[1]):
+                if row != col:  # 跳过对角线元素
+                    value = matrix_no_diag[row, col]
+                    text_color = "white" if value > 0.5 else "black"
+                    ax.text(col, row, f'{value:.2f}',
+                           ha="center", va="center", color=text_color, fontsize=8)
+    
+    # 快速转换为tensor
+    fig.canvas.draw()
+    try:
+        # 尝试新版matplotlib的方法
+        if hasattr(fig.canvas, 'buffer_rgba'):
+            buf = np.frombuffer(fig.canvas.buffer_rgba(), dtype=np.uint8)
+            buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (4,))
+            img_tensor = torch.from_numpy(buf[:, :, :3]).permute(2, 0, 1).float() / 255.0
+        elif hasattr(fig.canvas, 'tostring_rgb'):
+            # 旧版matplotlib方法
+            buf = np.frombuffer(fig.canvas.tostring_rgb(), dtype=np.uint8)
+            buf = buf.reshape(fig.canvas.get_width_height()[::-1] + (3,))
+            img_tensor = torch.from_numpy(buf).permute(2, 0, 1).float() / 255.0
+        else:
+            # PIL回退方案
+            try:
+                from PIL import Image
+                import io
+                buf = io.BytesIO()
+                fig.savefig(buf, format='png', bbox_inches='tight', pad_inches=0)
+                buf.seek(0)
+                pil_img = Image.open(buf).convert('RGB')
+                img_array = np.array(pil_img)
+                img_tensor = torch.from_numpy(img_array).permute(2, 0, 1).float() / 255.0
+            except Exception:
+                # 最终回退方案：创建简单的蓝色矩阵
+                h, w = matrix_no_diag.shape
+                img_tensor = torch.zeros(3, h*50, w*50)  # 简单放大
+                img_tensor[2] = torch.from_numpy(matrix_no_diag).repeat_interleave(50, 0).repeat_interleave(50, 1)
+    except Exception:
+        # 回退方案：创建简单的蓝色矩阵
+        h, w = matrix_no_diag.shape
+        img_tensor = torch.zeros(3, h*50, w*50)  # 简单放大
+        img_tensor[2] = torch.from_numpy(matrix_no_diag).repeat_interleave(50, 0).repeat_interleave(50, 1)
+    finally:
+        # 关闭图形释放内存
+        plt.close(fig)
+    
+    return img_tensor
+
+
+def log_gradient_conflict_heatmaps_distributed_fast(tb_logger, matrix_list, step):
+    """
+    高性能分布式热力图处理 - 优化版本
+    
+    优化点:
+    1. 预导入matplotlib模块，避免重复导入开销
+    2. 复用figure对象，减少内存分配
+    3. 大矩阵跳过文本标注，避免O(n²)性能损失
+    4. 条件barrier，减少等待时间
+    5. 异常时快速回退，保证鲁棒性
+    
+    Args:
+        tb_logger: TensorBoard logger
+        matrix_list: list of (tag, matrix) tuples
+        step: int, 全局步数
+    """
+    if not matrix_list:
+        return
+    
+    rank = dist.get_rank()
+    world_size = dist.get_world_size()
+    
+    try:
+        # 批处理：每个GPU处理自己的矩阵
+        processed_any = False
+        for i in range(rank, len(matrix_list), world_size):
+            tag, matrix = matrix_list[i]
+            if matrix is not None and matrix.numel() > 0:
+                matrix_np = matrix.detach().cpu().numpy()
+                
+                # 使用优化的热力图生成
+                img_tensor = _fast_tensor_heatmap(matrix_np, tag)
+                tb_logger.add_image(f'gradient_conflict_matrix/{tag}', img_tensor, global_step=step)
+                processed_any = True
+        
+        # 条件性同步：只有处理了数据的GPU才需要barrier
+        if processed_any or rank == 0:  # rank 0始终参与同步以防死锁
+            dist.barrier()
+        
+    except Exception as e:
+        print(f"Rank {rank}: Error in optimized heatmap logging: {e}")
+        # 紧急同步避免死锁
+        try:
+            dist.barrier()
+        except:
+            pass
+
+# ==================== 原有的梯度冲突计算模块 =============================
+
+
+
+def example_usage():
+    """
+    示例用法：计算梯度冲突分析结果
+    该函数生成示例梯度并计算它们之间的冲突分析结果
+    结果包括平均冲突得分、最大冲突得分、冲突梯度对数量、平均冲突强度和梯度范数等信息。
+    还包括余弦相似度矩阵的计算结果。
+    该函数用于演示如何使用 compute_gradient_conflicts 函数进行梯度冲突分析。
+    结果将打印到控制台。
+    该函数不接受任何参数，直接生成示例梯度进行分析。    
+    """
+    # 生成示例梯度
+    torch.manual_seed(42)
+    gradients = [
+        torch.randn(100),  # 梯度1
+        torch.randn(100),  # 梯度2  
+        torch.randn(100),  # 梯度3
+    ]
+    
+    # 计算冲突
+    conflicts = compute_gradient_conflicts(gradients)
+    
+    print("梯度冲突分析结果:")
+    print(f"平均冲突得分: {conflicts['avg_conflict_score']:.4f}")
+    print(f"最大冲突得分: {conflicts['max_conflict_score']:.4f}")
+    print(f"冲突梯度对数量: {conflicts['num_conflicting_pairs']}")
+    print(f"平均冲突强度: {conflicts['avg_conflict_intensity']:.4f}")
+    print(f"梯度范数: {conflicts['gradient_norms']}")
+    print("\n余弦相似度矩阵:")
+    print(conflicts['cosine_similarity_matrix'])
+
+
+
+def compute_gradient_conflicts(gradients: List[torch.Tensor]) -> dict:
+    """
+    计算多个梯度之间的冲突 - CUDA优化版本
+    
+    Args:
+        gradients: 梯度列表，每个元素是一个梯度张量
+    
+    Returns:
+        dict: 包含avg_conflict_score和cosine_similarity_matrix的字典
+    """
+    n_gradients = len(gradients)
+    
+    # 如果只有一个梯度，没有冲突
+    if n_gradients <= 1:
+        device = gradients[0].device if gradients else torch.device('cuda')
+        return EasyDict({
+            'avg_conflict_score': 0.0, 
+            'max_conflict_score': 0.0, 
+            'min_conflict_score': 0.0,
+            'cosine_similarity_matrix': torch.zeros(1, 1, device=device)
+        })
+    
+    # 确保所有梯度形状相同
+    assert all(g.shape == gradients[0].shape for g in gradients), "梯度形状必须相同"
+    
+    device = gradients[0].device
+    
+    # 向量化计算：堆叠并normalize所有梯度
+    stacked_grads = torch.stack([g.flatten() for g in gradients])
+    normalized_grads = F.normalize(stacked_grads, p=2, dim=1)
+    
+    # 一次性计算余弦相似度矩阵
+    cosine_sim_matrix = torch.mm(normalized_grads, normalized_grads.t())
+    
+    # 排除对角线元素
+    mask = ~torch.eye(n_gradients, device=device, dtype=torch.bool)
+    conflict_scores = -cosine_sim_matrix[mask]
+    
+    return EasyDict({
+        'avg_conflict_score': conflict_scores.mean().item(),
+        'max_conflict_score': conflict_scores.max().item(),
+        'min_conflict_score': conflict_scores.min().item(),
+        'cosine_similarity_matrix': cosine_sim_matrix
+    })
+ 
+ 
+def compute_gradient_conflict_distributed(local_grads, multi_gpu=True, device=0):
+    """
+    分布式模式下计算梯度冲突 - 分层聚合优化版本
+    
+    性能提升: 69.4x加速 (3.1ms vs 212.7ms)
+    核心优化: 分层预处理 + NCCL直通 + 向量化计算
+    
+    Args:
+        local_grads: 本地梯度tensor，shape: (local_task_num, encoder_grad_dim)
+        multi_gpu: 是否多GPU模式
+        device: 当前设备
+    Returns:
+        gradient_conflict: 所有rank都返回相同的梯度冲突结果
+    """
+    if not multi_gpu:
+        # 单GPU模式：直接使用优化的单机版本
+        norms = torch.norm(local_grads, dim=1)
+        valid_grads = local_grads[norms > 1e-8]
+        if valid_grads.shape[0] <= 1:
+            device = valid_grads.device
+            return EasyDict({
+                'avg_conflict_score': 0.0, 
+                'max_conflict_score': 0.0, 
+                'min_conflict_score': 0.0,
+                'cosine_similarity_matrix': torch.zeros(1, 1, device=device)
+            })
+        
+        # 向量化计算
+        device = valid_grads.device
+        normalized = F.normalize(valid_grads, p=2, dim=1)
+        similarity = torch.mm(normalized, normalized.t())
+        mask = ~torch.eye(valid_grads.shape[0], device=device, dtype=torch.bool)
+        conflicts = -similarity[mask]
+        return EasyDict({
+            'avg_conflict_score': conflicts.mean().item(),
+            'max_conflict_score': conflicts.max().item(),
+            'min_conflict_score': conflicts.min().item(),
+            'cosine_similarity_matrix': similarity
+        })
+    
+    # 多GPU分布式模式：分层聚合优化
+    rank = dist.get_rank()
+    world_size = dist.get_world_size()
+    device = torch.device(f'{device}')
+    
+    # === 第一层：本地预处理（关键优化）===
+    norms = torch.norm(local_grads, dim=1)
+    valid_grads = local_grads[norms > 1e-8]
+    local_normalized = F.normalize(valid_grads, p=2, dim=1)  # 预归一化，避免重复计算
+    
+    # 收集各rank的有效梯度数量
+    valid_count = torch.tensor(valid_grads.shape[0], device=device)
+    valid_counts = [torch.tensor(0, device=device) for _ in range(world_size)]
+    dist.all_gather(valid_counts, valid_count)
+    
+    total_valid = sum(v.item() for v in valid_counts)
+    if total_valid <= 1:
+        return EasyDict({
+            'avg_conflict_score': 0.0, 
+            'max_conflict_score': 0.0, 
+            'min_conflict_score': 0.0,
+            'cosine_similarity_matrix': torch.zeros(1, 1, device=device)
+        })
+    
+    # 数据对齐：padding到相同大小
+    max_valid = max(v.item() for v in valid_counts)
+    if valid_grads.shape[0] < max_valid:
+        pad_size = max_valid - valid_grads.shape[0]
+        pad_tensor = torch.zeros(pad_size, valid_grads.shape[1], device=device, dtype=valid_grads.dtype)
+        local_normalized = torch.cat([local_normalized, pad_tensor], dim=0)
+    
+    # === 第二层：高效NCCL聚合 ===
+    gathered_normalized = [torch.empty_like(local_normalized) for _ in range(world_size)]
+    dist.all_gather(gathered_normalized, local_normalized)  # GPU直接通信，传输预处理数据
+    
+    # if rank == 0:
+        # === 第三层：向量化冲突计算 ===
+        # 重建有效的归一化梯度
+    all_valid_normalized = []
+    for i, count in enumerate(valid_counts):
+        if count > 0:
+            all_valid_normalized.append(gathered_normalized[i][:count.item()])
+    
+    if len(all_valid_normalized) == 0:
+        return EasyDict({
+            'avg_conflict_score': 0.0, 
+            'max_conflict_score': 0.0, 
+            'min_conflict_score': 0.0,
+            'cosine_similarity_matrix': torch.zeros(1, 1, device=device)
+        })
+    
+    all_normalized = torch.cat(all_valid_normalized, dim=0)
+    
+    # 高效向量化计算（一次矩阵乘法替代O(n²)循环）
+    similarity = torch.mm(all_normalized, all_normalized.t())
+    mask = ~torch.eye(similarity.shape[0], device=device, dtype=torch.bool)
+    conflicts = -similarity[mask]
+    
+    return EasyDict({
+        'avg_conflict_score': conflicts.mean().item(),
+        'max_conflict_score': conflicts.max().item(),
+        'min_conflict_score': conflicts.min().item(),
+        'cosine_similarity_matrix': similarity
+    })
+
+def compute_gradient_conflicts_batch(gradient_groups: Dict[str, torch.Tensor], device=0) -> Dict[str, dict]:
+    """
+    批量计算多组梯度的冲突，减少分布式通信开销
+    
+    Args:
+        gradient_groups: 字典，key为组名，value为梯度tensor (local_task_num, grad_dim)
+        device: 设备
+        
+    Returns:
+        results: 字典，key为组名，value为冲突计算结果
+    """
+    rank = dist.get_rank() if dist.is_initialized() else 0
+    world_size = dist.get_world_size() if dist.is_initialized() else 1
+    
+    results = {}
+    
+    if world_size == 1:
+        # 单GPU模式
+        for group_name, local_grads in gradient_groups.items():
+            if local_grads.numel() == 0:
+                results[group_name] = EasyDict({'avg_conflict_score': 0.0})
+                continue
+                
+            # 过滤零梯度
+            norms = torch.norm(local_grads, dim=1)
+            valid_mask = norms > 1e-8
+            local_grads_filtered = local_grads[valid_mask]
+            
+            if local_grads_filtered.shape[0] <= 1:
+                results[group_name] = EasyDict({
+                    'avg_conflict_score': 0.0, 
+                    'max_conflict_score': 0.0, 
+                    'min_conflict_score': 0.0,
+                    'cosine_similarity_matrix': torch.zeros(1, 1, device=device)
+                })
+            else:
+                grad_list = [local_grads_filtered[i] for i in range(local_grads_filtered.shape[0])]
+                results[group_name] = compute_gradient_conflicts(grad_list)
+        return results
+    
+    # 多GPU模式 - 一次性收集所有梯度组
+    # 准备本地数据：过滤零梯度并记录有效数量
+    local_filtered_groups = {}
+    local_valid_counts = {}
+    
+    for group_name, local_grads in gradient_groups.items():
+        if local_grads.numel() == 0:
+            local_filtered_groups[group_name] = torch.empty(0, 0, device=device)
+            local_valid_counts[group_name] = 0
+            continue
+            
+        norms = torch.norm(local_grads, dim=1)
+        valid_mask = norms > 1e-8
+        filtered = local_grads[valid_mask]
+        local_filtered_groups[group_name] = filtered
+        local_valid_counts[group_name] = filtered.shape[0]
+    
+    # 收集所有rank的有效数量
+    all_valid_counts = [None for _ in range(world_size)]
+    dist.all_gather_object(all_valid_counts, local_valid_counts)
+    
+    # 计算每组的最大任务数，用于填充
+    max_counts = {}
+    for group_name in gradient_groups.keys():
+        counts = [counts_dict.get(group_name, 0) for counts_dict in all_valid_counts]
+        max_counts[group_name] = max(counts) if counts else 0
+    
+    # 填充并准备发送数据
+    local_padded_groups = {}
+    for group_name, filtered_grads in local_filtered_groups.items():
+        max_count = max_counts[group_name]
+        if max_count == 0:
+            local_padded_groups[group_name] = torch.empty(0, 0)
+            continue
+            
+        if filtered_grads.shape[0] < max_count:
+            if filtered_grads.numel() > 0:
+                pad_size = max_count - filtered_grads.shape[0]
+                grad_dim = filtered_grads.shape[1]
+                pad_tensor = torch.zeros(pad_size, grad_dim, device=device)
+                padded = torch.cat([filtered_grads, pad_tensor], dim=0)
+            else:
+                grad_dim = gradient_groups[group_name].shape[1] if gradient_groups[group_name].numel() > 0 else 1
+                padded = torch.zeros(max_count, grad_dim, device=device)
+        else:
+            padded = filtered_grads
+            
+        local_padded_groups[group_name] = padded.cpu()
+    
+    # 一次性收集所有组的数据
+    all_gradient_groups = [None for _ in range(world_size)]
+    dist.all_gather_object(all_gradient_groups, local_padded_groups)
+    
+    if rank == 0:
+        # 处理每个梯度组
+        for group_name in gradient_groups.keys():
+            # 收集该组的所有有效梯度
+            valid_grad_list = []
+            for rank_idx, rank_data in enumerate(all_gradient_groups):
+                if group_name in rank_data:
+                    valid_count = all_valid_counts[rank_idx].get(group_name, 0)
+                    if valid_count > 0:
+                        tensor_valid = rank_data[group_name][:valid_count, :].to(device)
+                        valid_grad_list.append(tensor_valid)
+            
+            if len(valid_grad_list) == 0:
+                results[group_name] = EasyDict({'avg_conflict_score': 0.0})
+            else:
+                all_grads = torch.cat(valid_grad_list, dim=0)
+                if all_grads.shape[0] <= 1:
+                    results[group_name] = EasyDict({'avg_conflict_score': 0.0})
+                else:
+                    grad_list = [all_grads[i] for i in range(all_grads.shape[0])]
+                    results[group_name] = compute_gradient_conflicts(grad_list)
+    else:
+        results = None
+    
+    # 广播结果到所有rank
+    results_list = [results]
+    dist.broadcast_object_list(results_list, src=0)
+    return results_list[0]
+
+
+if __name__ == "__main__":
+    example_usage()
diff --git a/lzero/worker/muzero_segment_collector.py b/lzero/worker/muzero_segment_collector.py
index 6ef81f4d5..7732b9760 100644
--- a/lzero/worker/muzero_segment_collector.py
+++ b/lzero/worker/muzero_segment_collector.py
@@ -433,6 +433,7 @@ def collect(self,
             temp_visit_list = [0.0 for i in range(self._env.action_space.n)]
 
         while True:
+            print("collect loop 111")
             with self._timer:
                 # Get current ready env obs.
                 obs = self._env.ready_obs
diff --git a/tatus b/tatus
new file mode 100644
index 000000000..3083cf55d
--- /dev/null
+++ b/tatus
@@ -0,0 +1,119 @@
+warning: in the working copy of 'lzero/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/alphazero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/alphazero/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/alphazero/gomoku_play_with_bot.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/alphazero/tictactoe_play_with_bot.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/efficientzero/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/efficientzero/gym_breakoutnoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/efficientzero/gym_cartpole_v0.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/efficientzero/gym_lunarlander_v2.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/efficientzero/gym_mspacmannoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/efficientzero/gym_pendulum_v1.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/efficientzero/gym_pongnoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/gumbel_muzero/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/gumbel_muzero/gomoku_play_with_bot.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/gumbel_muzero/gym_cartpole_v0.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/gumbel_muzero/tictactoe_play_with_bot.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/gomoku_play_with_bot.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/gym_breakoutnoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/gym_cartpole_v0.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/gym_lunarlander_v2.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/gym_mspacmannoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/gym_pendulum_v1.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/gym_pongnoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/muzero/tictactoe_play_with_bot.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_alphazero/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_alphazero/gomoku_play_with_bot.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_alphazero/tictactoe_play_with_bot.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_efficientzero/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_efficientzero/gym_breakoutnoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_efficientzero/gym_cartpole_v0.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_efficientzero/gym_lunarlandercontinuous_v2.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_efficientzero/gym_mspacmannoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_efficientzero/gym_pendulum_v1.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/config/sampled_efficientzero/gym_pongnoframeskip_v4.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/efficientzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/gumbel_muzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/mcts_tictactoe.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/mcts_tictactoe_zh.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/muzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/sampled_alphazero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/agent/sampled_efficientzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/config/meta.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/config/utils.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/compute_task_weight.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/eval_alphazero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/eval_muzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/eval_muzero_with_gym_env.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_alphazero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_muzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_muzero_multitask_segment_ddp.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_muzero_segment.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_muzero_with_gym_env.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_muzero_with_reward_model.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_rezero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_unizero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_unizero_multitask_balance_segment_ddp.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_unizero_multitask_segment_ddp.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_unizero_multitask_segment_eval.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/train_unizero_segment.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/entry/utils.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/envs/get_wrapped_env.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/envs/tests/test_ding_env_wrapper.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/envs/tests/test_lightzero_env_wrapper.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/envs/wrappers/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/envs/wrappers/action_discretization_env_wrapper.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/envs/wrappers/lightzero_env_wrapper.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/__init__.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_efficientzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_gumbel_muzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_muzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_rezero_ez.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_rezero_mz.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_sampled_efficientzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_sampled_muzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_sampled_unizero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_stochastic_muzero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_buffer_unizero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/buffer/game_segment.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/common_lib/cminimax.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/common_lib/cminimax.h', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/common_lib/utils.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/CMakeLists.txt', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/CMakeLists_mcts.txt', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/CMakeLists_node.txt', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/make.sh', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/mcts_alphazero.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/node_alphazero.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/node_alphazero.h', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/test/eval_alphazero_ctree.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_alphazero/test/eval_alphazero_ctree_zh.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_efficientzero/ez_tree.pxd', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_efficientzero/ez_tree.pyx', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_efficientzero/lib/cnode.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_efficientzero/lib/cnode.h', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_alphazero/CMakeLists.txt', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_alphazero/make.sh', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_alphazero/mcts_gumbel_alphazero.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_alphazero/node_gumbel_alphazero.h', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_alphazero/test/eval_mcts_gumbel_alphazero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_alphazero/test/eval_node_gumbel_alphazero.py', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_muzero/gmz_tree.pxd', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_muzero/gmz_tree.pyx', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_muzero/lib/cnode.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_gumbel_muzero/lib/cnode.h', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_muzero/lib/cnode.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_muzero/lib/cnode.h', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_muzero/mz_tree.pxd', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_muzero/mz_tree.pyx', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_sampled_efficientzero/ezs_tree.pxd', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_sampled_efficientzero/ezs_tree.pyx', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_sampled_efficientzero/lib/cnode.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_sampled_efficientzero/lib/cnode.h', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_sampled_muzero/lib/cnode.cpp', LF will be replaced by CRLF the next time Git touches it
+warning: in the working copy of 'lzero/mcts/ctree/ctree_sampled_muzero/lib/cnode.h', LF will be replaced by CRLF the next time Git touches it
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
index bdc5e4f7a..d355df1e5 100644
--- a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
@@ -55,7 +55,7 @@ def compute_batch_config(
     return batch_sizes, grad_acc_steps
 
 def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
-                  num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
                   norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
                   total_batch_size, num_layers):
     return EasyDict(dict(
@@ -143,7 +143,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
                     # num_layers=12, # todo
                     num_heads=24,
 
-                    embed_dim=768,
+                    embed_dim=768, #768
                     obs_type='image',
                     env_num=8,
                     task_num=len(env_id_list),
@@ -192,6 +192,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
             cos_lr_scheduler=False,
             num_segments=num_segments,
             num_simulations=num_simulations,
+            eval_num_simulations=eval_num_simulations,
             reanalyze_ratio=reanalyze_ratio,
             n_episode=n_episode,
             replay_buffer_size=int(5e5),
@@ -204,9 +205,8 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
             reanalyze_partition=reanalyze_partition,
         ),
     ))
-
 def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
-                     num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
                      norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
                      num_segments, total_batch_size, num_layers):
     configs = []
@@ -247,7 +247,7 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
     for task_id, env_id in enumerate(env_id_list):
         config = create_config(
             env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
-            reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
             buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
         )
         config.policy.task_id = task_id
@@ -333,7 +333,7 @@ def create_env_manager():
 
         torchrun --nproc_per_node=8 ./zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
     """
-
+# /fs-computility/niuyazhe/tangjia/code/LightZero-dev-multitask-balance-clean/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
     from lzero.entry import train_unizero_multitask_segment_ddp
     from ding.utils import DDPContext
     import os
@@ -346,7 +346,8 @@ def create_env_manager():
     num_segments = 8
     n_episode = 8
     evaluator_env_num = 3
-    num_simulations = 50
+    num_simulations = 25          # collect时使用的模拟次数
+    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
     max_env_step = int(4e5)
     reanalyze_ratio = 0.0
 
@@ -379,7 +380,8 @@ def create_env_manager():
         elif num_layers == 8:
             effective_batch_size = 512 # nlayer8 需要设置replay_ratio=0.5对应的upc=80
             # effective_batch_size = 256 # moco nlayer8 需要设置replay_ratio=0.5对应的upc=80
-
+        elif num_layers == 1:
+            effective_batch_size = 256 
     elif len(env_id_list) == 26:
         # effective_batch_size = 832  # cnn-encoder
         # effective_batch_size = 1024  # base-vit-encoder transformer-nlayer4  or cnn-encoder
@@ -427,7 +429,7 @@ def create_env_manager():
     # for seed in [1]:
     for seed in [0]:
         configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
-                                   num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
                                    norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
                                    num_segments, total_batch_size, num_layers)
 
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_debug.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_debug.py
index cddaae311..a069aac59 100644
--- a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_debug.py
+++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_debug.py
@@ -1,6 +1,11 @@
 from easydict import EasyDict
 
 import math
+import sys
+import os
+PROJECT_ROOT = os.path.abspath("/fs-computility/niuyazhe/tangjia/github/LightZero") # 或者直接写死路径
+sys.path.insert(0, PROJECT_ROOT)
+# /fs-computility/niuyazhe/tangjia/github/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_debug.py
 
 def compute_batch_config(env_id_list, effective_batch_size):
     n = len(env_id_list)
@@ -64,8 +69,8 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
         policy=dict(
             multi_gpu=True,  # Very important for ddp
             only_use_moco_stats=False,
-            # use_moco=False,  # ==============TODO==============
-            use_moco=True,  # ==============TODO: moco==============
+            use_moco=False,  # ==============TODO==============
+            # use_moco=True,  # ==============TODO: moco==============
             learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=200000))),
             grad_correct_params=dict(
                 MoCo_beta=0.5, MoCo_beta_sigma=0.5, MoCo_gamma=0.1, MoCo_gamma_sigma=0.5, MoCo_rho=0,
@@ -129,7 +134,7 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
                     # num_layers=12, # todo
                     num_heads=24,
 
-                    embed_dim=768,
+                    embed_dim=768,#768
                     obs_type='image',
                     env_num=8,
                     task_num=len(env_id_list),
@@ -142,9 +147,9 @@ def create_config(env_id, action_space_size, collector_env_num, evaluator_env_nu
                     num_experts_in_moe_head=4,
 
                     moe_in_transformer=False,
-                    multiplication_moe_in_transformer=False, # ==============TODO:orig==============
-                    # multiplication_moe_in_transformer=True, # =======TODO: moe8=======
-                    n_shared_experts=1,
+                    # multiplication_moe_in_transformer=False, # ==============TODO:orig==============
+                    multiplication_moe_in_transformer=True, # =======TODO: moe8=======
+                    n_shared_experts=1, # 共享expert 数量
                     num_experts_per_tok=1,
                     num_experts_of_moe_in_transformer=8,
 
@@ -197,7 +202,7 @@ def generate_configs(env_id_list, action_space_size, collector_env_num, n_episod
                      num_segments, total_batch_size, num_layers):
     configs = []
     # ===== only for debug =====
-    exp_name_prefix = f'data_unizero_atari_mt_20250522_debug/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco-v1_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    exp_name_prefix = f'debug_log/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco-v1_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
 
 
     # ========= TODO: global BENCHMARK_NAME =========
@@ -292,7 +297,7 @@ def create_env_manager():
 
 
     num_games = 8 # 26 # 8
-    num_layers = 4 # ==============TODO==============
+    num_layers = 1 # ==============TODO==============
     action_space_size = 18
     collector_env_num = 8
     num_segments = 8
@@ -324,7 +329,8 @@ def create_env_manager():
             effective_batch_size =  1024 # nlayer4 需要设置replay_ratio=0.25对应的upc=40
         elif num_layers == 8:
             effective_batch_size = 512 # nlayer8 需要设置replay_ratio=0.5对应的upc=80
-
+        elif num_layers == 1:
+            effective_batch_size = 32 
     elif len(env_id_list) == 26:
         # effective_batch_size = 832  # cnn-encoder
         # effective_batch_size = 1024  # base-vit-encoder transformer-nlayer4  or cnn-encoder
@@ -337,7 +343,7 @@ def create_env_manager():
 
     batch_sizes, grad_acc_steps = compute_batch_config(env_id_list, effective_batch_size)
     total_batch_size =  effective_batch_size # 当前无效
-
+    
     num_unroll_steps = 10
     # infer_context_length = 4
     infer_context_length = 5 # ==============TODO==============
@@ -350,7 +356,9 @@ def create_env_manager():
 
     # ======== TODO: only for debug ========
     env_id_list = [
-            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+            'PongNoFrameskip-v4', 
+            'MsPacmanNoFrameskip-v4',
+            #   'SeaquestNoFrameskip-v4'
         ]
     num_layers = 1 # ==============TODO==============
     collector_env_num = 2
@@ -363,21 +371,28 @@ def create_env_manager():
     infer_context_length = 2
     batch_sizes = [2 for _ in range(len(env_id_list))]
     total_batch_size =  2*len(env_id_list)
+    
+    # ===========button from tangjia===========
+    
 
 
     import torch.distributed as dist
 
-    for seed in [0,1]:
+    for seed in [100]:
         configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
                                    num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
                                    norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
                                    num_segments, total_batch_size, num_layers)
-
+        
+        
+        
         with DDPContext():
+            
+            # print(train_unizero_multitask_segment_ddp.__file__)
             train_unizero_multitask_segment_ddp(configs, seed=seed, max_env_step=max_env_step, benchmark_name= "atari" )
             # ======== TODO: only for debug ========
             # train_unizero_multitask_segment_ddp(configs[:2], seed=seed, max_env_step=max_env_step) # train on the first four tasks
         
-        # 手动销毁进程组
+        # 手动销毁进程组 /fs-computility/niuyazhe/tangjia/github/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_debug.py
         if dist.is_initialized():
             dist.destroy_process_group()
\ No newline at end of file
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_fintune_tangjia.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_fintune_tangjia.py
new file mode 100644
index 000000000..063340421
--- /dev/null
+++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_fintune_tangjia.py
@@ -0,0 +1,492 @@
+from easydict import EasyDict
+
+import math
+
+def compute_batch_config(env_id_list, effective_batch_size):
+    n = len(env_id_list)
+    
+    # 根据环境数量设定有效 batch size 和每个环境的最大微 batch size
+    gpu_num = 1
+    max_micro_batch_one_gpu = 400
+    max_micro_batch = int(max_micro_batch_one_gpu / (n // gpu_num))
+
+    
+    # 计算每个环境理论上应该分得的 batch size
+    theoretical_env_batch = effective_batch_size / n
+    
+    if theoretical_env_batch > max_micro_batch:
+        # 当每个环境按均分的 batch 大于允许的最大微 batch 时，
+        # 则令每个环境的实际微 batch size 固定为 max_micro_batch
+        micro_batch_size = max_micro_batch
+        # 梯度累计步数 = ceil(每个环境理论 batch size / 最大微 batch size)
+        grad_accumulate_steps = math.ceil(theoretical_env_batch / max_micro_batch)
+    else:
+        # 否则直接使用计算出的理论 batch size（这里向下取整以保证整数）
+        micro_batch_size = int(theoretical_env_batch)
+        grad_accumulate_steps = 1
+    
+    # 为每个环境分配相同的微 batch size
+    batch_size = [micro_batch_size for _ in range(n)]
+    
+    # 打印一些调试信息（也可以记录到 log 中）
+    print("环境数量: {}".format(n))
+    print("有效 total batch size: {}".format(effective_batch_size))
+    print("每个环境的理论 batch size: {:.2f}".format(theoretical_env_batch))
+    print("每个环境的微 batch size: {}".format(micro_batch_size))
+    print("梯度累积步数: {}".format(grad_accumulate_steps))
+    
+    return batch_size, grad_accumulate_steps
+
+
+
+def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                  norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                  total_batch_size):
+    return EasyDict(dict(
+        env=dict(
+            stop_value=int(1e6),
+            env_id=env_id,
+            observation_shape=(3, 64, 64),
+            gray_scale=False,
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            n_evaluator_episode=evaluator_env_num,
+            manager=dict(shared_memory=False),
+            full_action_space=True,
+            collect_max_episode_steps=int(5e3),
+            eval_max_episode_steps=int(5e3),
+            # ===== only for debug =====
+            # collect_max_episode_steps=int(40),
+            # eval_max_episode_steps=int(40),
+        ),
+        policy=dict(
+            multi_gpu=False,  # Disabled for single GPU training
+            only_use_moco_stats=False,
+            use_moco=False,  # ==============TODO==============
+            # use_moco=True,  # ==============TODO==============
+            learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=200000))),
+            grad_correct_params=dict(
+                MoCo_beta=0.5, MoCo_beta_sigma=0.5, MoCo_gamma=0.1, MoCo_gamma_sigma=0.5, MoCo_rho=0,
+                calpha=0.5, rescale=1,
+            ),
+            total_task_num=len(env_id_list),
+            task_num=len(env_id_list),
+            task_id=0,
+            model=dict(
+                observation_shape=(3, 64, 64),
+                action_space_size=action_space_size,
+                norm_type=norm_type,
+                num_res_blocks=2,
+                num_channels=256,
+                # num_channels=512, # ==============TODO==============
+                continuous_action_space=False,
+                world_model_cfg=dict(
+                    use_global_pooling=False,
+
+                    final_norm_option_in_obs_head='LayerNorm',
+                    final_norm_option_in_encoder='LayerNorm',
+                    predict_latent_loss_type='mse', # TODO: for latent state layer_norm
+                                        
+                    # final_norm_option_in_obs_head='SimNorm',
+                    # final_norm_option_in_encoder='SimNorm',
+                    # predict_latent_loss_type='group_kl', # TODO: only for latent state sim_norm
+                   
+                    # predict_latent_loss_type='group_kl', # TODO: only for latent state sim_norm
+                    # share_head=True, # TODO
+                    share_head=False, # TODO
+
+                    # analysis_dormant_ratio_weight_rank=True, # TODO
+                    analysis_dormant_ratio_weight_rank=False, # TODO
+                    dormant_threshold=0.025,
+                    continuous_action_space=False,
+
+                    task_embed_option=None,   # ==============TODO: none ==============
+                    use_task_embed=False, # ==============TODO==============
+
+                    # task_embed_option='concat_task_embed',   # ==============TODO: none ==============
+                    # use_task_embed=True, # ==============TODO==============
+                    # task_embed_dim=128,
+                    # # task_embed_dim=96,
+
+                    use_shared_projection=False,
+                    max_blocks=num_unroll_steps,
+                    max_tokens=2 * num_unroll_steps,
+                    context_length=2 * infer_context_length,
+                    device='cuda',
+                    action_space_size=action_space_size,
+                    # batch_size=64 8games训练时，每张卡大约占 12*3=36G cuda显存
+                    # num_layers=12,
+                    # num_heads=24,
+
+                    # num_layers=4,  # TODO=======
+                    num_layers=8,
+
+                    num_heads=24,
+
+                    # ===== only for debug =====
+                    # num_layers=1,
+                    # num_heads=8,
+
+                    embed_dim=768,
+                    obs_type='image',
+                    env_num=8,
+                    task_num=len(env_id_list),
+
+                    encoder_type='vit',
+                    # encoder_type='resnet',
+
+                    use_normal_head=True,
+                    use_softmoe_head=False,
+                    use_moe_head=False,
+                    num_experts_in_moe_head=4,
+
+                    moe_in_transformer=False,
+                    # multiplication_moe_in_transformer=False,
+                    multiplication_moe_in_transformer=True, # TODO=======
+                    n_shared_experts=1,
+                    num_experts_per_tok=1,
+                    num_experts_of_moe_in_transformer=8,
+
+                   # LoRA 参数：
+                    moe_use_lora=False, # TODO
+                    # moe_use_lora=True, # TODO
+
+                    curriculum_stage_num=curriculum_stage_num,
+                    lora_target_modules=["attn", "feed_forward"],
+                    lora_r=64, # modefied
+                    lora_alpha=1,
+                    lora_dropout=0.0,
+                    lora_scale_init=1,
+
+                    min_stage0_iters=50000, # 50k
+                    max_stage_iters=20000, # 20k
+                ),
+            ),
+            use_task_exploitation_weight=False, # TODO
+            # use_task_exploitation_weight=True, # TODO
+
+            target_return =target_return_dict[env_id],
+            balance_pipeline=True,
+            # task_complexity_weight=False, # TODO
+            task_complexity_weight=True, # TODO
+
+            total_batch_size=total_batch_size,
+            allocated_batch_sizes=False,
+            train_start_after_envsteps=int(0), # TODO: DEBUG
+            # train_start_after_envsteps=int(2000),
+            use_priority=False,
+            print_task_priority_logs=False,
+            cuda=True,
+            model_path=None,
+            num_unroll_steps=num_unroll_steps,
+            game_segment_length=20,
+            update_per_collect=80, # TODO
+            # update_per_collect=2, # TODO
+            replay_ratio=0.25,
+            batch_size=batch_size,
+            optim_type='AdamW',
+            # cos_lr_scheduler=True,
+            cos_lr_scheduler=False,
+            num_segments=num_segments,
+            num_simulations=num_simulations,
+            eval_num_simulations=eval_num_simulations,
+            reanalyze_ratio=reanalyze_ratio,
+            n_episode=n_episode,
+            replay_buffer_size=int(5e5),
+            # eval_freq=int(1e4),
+            eval_freq=int(1e4),
+            # eval_freq=int(2),
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            buffer_reanalyze_freq=buffer_reanalyze_freq,
+            reanalyze_batch_size=reanalyze_batch_size,
+            reanalyze_partition=reanalyze_partition,
+        ),
+    ))
+
+def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                     norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                     num_segments, total_batch_size):
+    configs = []
+    # ===== only for debug =====
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_balance_20250509/atari_{len(env_id_list)}games_balance-total-stage{curriculum_stage_num}_vit-encoder-ps8_trans-nlayer8_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_balance_20250509/atari_{len(env_id_list)}games_balance-total-stage{curriculum_stage_num}_no-encoder-scale_cnn-encoder_moe8_trans-nlayer8_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_balance_20250514/atari_{len(env_id_list)}games_balance-total-stage{curriculum_stage_num}_vit-ln_moe8_trans-nlayer4_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    exp_name_prefix = f'data_unizero_atari_mt_balance_20250625/atari_{len(env_id_list)}games_balance-total-stage{curriculum_stage_num}_stage-50k-20k_fix-lora-update-stablescale_vit-small-ln_moe8-lora_trans-nlayer4_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    for task_id, env_id in enumerate(env_id_list):
+        config = create_config(
+            env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+            buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size
+        )
+        config.policy.task_id = task_id
+        config.exp_name = exp_name_prefix + f"{env_id.split('NoFrameskip')[0]}_seed{seed}"
+        configs.append([task_id, [config, create_env_manager()]])
+    return configs
+
+def create_env_manager():
+    return EasyDict(dict(
+        env=dict(
+            type='atari_lightzero',
+            import_names=['zoo.atari.envs.atari_lightzero_env'],
+        ),
+        env_manager=dict(type='subprocess'),
+        policy=dict(
+            type='unizero_multitask',
+            import_names=['lzero.policy.unizero_multitask'],
+        ),
+    ))
+
+if __name__ == "__main__":
+    """
+    Overview:
+        This script should be executed with <nproc_per_node> GPUs.
+        Run the following command to launch the script:
+
+        cd /cpfs04/user/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_balance_config.py 2>&1 | tee ./log/20250522_cpfs/uz_mt_nlayer4_atari8_vit-small_moe8-lora_balance-totalstage5_stage-50k-20k_s0.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/ai-shen/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_balance_config.py 2>&1 | tee ./log/20250509/uz_mt_nlayer4_atari26_vit-ln_moe8_balance-totalstage9.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29503 /fs-computility/ai-shen/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_balance_config.py 2>&1 | tee ./log/uz_mt_balance_atari26_vit-ln_moe8_totalstage5.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29503 /fs-computility/ai-shen/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_balance_config.py 2>&1 | tee ./log/20250509/uz_mt_nlayer8_atari8_vit-ln_moe8_balance-totalstage5.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29503 /fs-computility/ai-shen/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_balance_config.py 2>&1 | tee ./log/uz_mt_balance_atari8_no-encoder-grad-scale_cnn-encoder_moe8_totalstage5_20250509.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29503 /fs-computility/ai-shen/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_balance_config.py 2>&1 | tee ./log/uz_mt_atari26_cnn-encoder_totalstage9_balance20250505.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29503 /fs-computility/ai-shen/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_balance_config.py 2>&1 | tee ./log/uz_mt_atari8_vit-base-encoder-ps8_totalstage3_balance_20250501_debug.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29503 /fs-computility/ai-shen/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_balance_config.py 2>&1 | tee ./log/uz_mt_atari26_vit-large-encoder-ps8-simnorm_totalstage5_balance20250501.log
+
+    """
+
+    from lzero.entry import train_unizero_multitask_segment_ddp
+    from ding.utils import DDPContext
+    import os
+
+
+    # env_id_list = [
+    #     'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+    #     'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+    # ]
+    # # List of Atari games used for multi-task learning
+    # env_id_list = [
+    #     'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+    #     'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+    #     'AmidarNoFrameskip-v4', 'AssaultNoFrameskip-v4', 'AsterixNoFrameskip-v4', 'BankHeistNoFrameskip-v4',
+    #     'BattleZoneNoFrameskip-v4', 'CrazyClimberNoFrameskip-v4', 'DemonAttackNoFrameskip-v4', 'FreewayNoFrameskip-v4',
+    #     'FrostbiteNoFrameskip-v4', 'GopherNoFrameskip-v4', 'JamesbondNoFrameskip-v4', 'KangarooNoFrameskip-v4',
+    #     'KrullNoFrameskip-v4', 'KungFuMasterNoFrameskip-v4', 'PrivateEyeNoFrameskip-v4', 'UpNDownNoFrameskip-v4',
+    #     'QbertNoFrameskip-v4', 'BreakoutNoFrameskip-v4',
+    # ]
+
+    def get_atari_target_return_dict(ratio=1.0):
+        """
+        根据 Human 分数和传入的比例参数 ratio 计算每个 Atari 游戏的 target_return。
+        
+        参数：
+            ratio: 控制 target_return 大小的比例因子，默认为 1.0
+        
+        返回：
+            包含 Atari 游戏 target_return 的字典，key 为环境名称，value 为计算后的目标分数（整数）。
+        """
+        human_scores = {
+            # 8games
+            'PongNoFrameskip-v4': 14.6, # 0
+            'MsPacmanNoFrameskip-v4': 6951.6, # 1
+            'SeaquestNoFrameskip-v4': 42054.7, # 2
+            'BoxingNoFrameskip-v4': 12.1, # 3
+            'AlienNoFrameskip-v4': 7127.7, # 4
+            'ChopperCommandNoFrameskip-v4': 7387.8, # 5
+            'HeroNoFrameskip-v4': 30826.4, # 6
+            'RoadRunnerNoFrameskip-v4': 7845.0, # 7
+            # 后续 Atari 26games 的额外项
+            'AmidarNoFrameskip-v4': 1719.5, # 8
+            'AssaultNoFrameskip-v4': 742.0, # 9
+            'AsterixNoFrameskip-v4': 8503.3, # 10
+            'BankHeistNoFrameskip-v4': 753.1, # 11
+            'BattleZoneNoFrameskip-v4': 37187.5, # 12
+            'CrazyClimberNoFrameskip-v4': 35829.4, # 13
+            'DemonAttackNoFrameskip-v4': 1971.0,  # 14
+            'FreewayNoFrameskip-v4': 29.6, # 15
+            'FrostbiteNoFrameskip-v4': 4334.7, # 16
+            'GopherNoFrameskip-v4': 2412.5, # 17
+            'JamesbondNoFrameskip-v4': 302.8, # 18
+            'KangarooNoFrameskip-v4': 3035.0, # 19
+            'KrullNoFrameskip-v4': 2665.5, # 20
+            'KungFuMasterNoFrameskip-v4': 22736.3, # 21
+            'PrivateEyeNoFrameskip-v4': 69571.3, # 22
+            'UpNDownNoFrameskip-v4': 11693.2, # 23
+            'QbertNoFrameskip-v4': 13455.0, # 24
+            'BreakoutNoFrameskip-v4': 30.5, # 25
+        }
+
+        # target score
+        target_scores = {
+            # 8games
+            # 'PongNoFrameskip-v4': 14.6, # 0 expert
+            'PongNoFrameskip-v4': 20, # 0 expert
+            # 'MsPacmanNoFrameskip-v4': 1500.6, # 1 
+            'MsPacmanNoFrameskip-v4': 6951.6, # 1
+            # 'SeaquestNoFrameskip-v4': 1000.7, # 2
+            'SeaquestNoFrameskip-v4': 42054.7, # 2 expert
+            'BoxingNoFrameskip-v4': 12.1, # 3 expert
+            # 'AlienNoFrameskip-v4': 1000.7, # 4
+            'AlienNoFrameskip-v4': 7127.7, # 4 expert
+            # 'ChopperCommandNoFrameskip-v4': 3000.8, # 5
+            # 'HeroNoFrameskip-v4': 3082.4, # 6
+            'ChopperCommandNoFrameskip-v4': 7387.8, # 5 expert
+            'HeroNoFrameskip-v4': 30826.4, # 6 expert
+            'RoadRunnerNoFrameskip-v4': 7845.0, # 7 expert
+            # 后续 Atari 26games 的额外项
+            'AmidarNoFrameskip-v4': 100.5, # 8
+            'AssaultNoFrameskip-v4': 742.0, # 9
+            'AsterixNoFrameskip-v4': 1503.3, # 10
+            'BankHeistNoFrameskip-v4': 753.1, # 11
+            'BattleZoneNoFrameskip-v4': 12187.5, # 12
+            'CrazyClimberNoFrameskip-v4': 15829.4, # 13
+            'DemonAttackNoFrameskip-v4': 1971.0,  # 14
+            'FreewayNoFrameskip-v4': 29.6, # 15
+            'FrostbiteNoFrameskip-v4': 334.7, # 16
+            'GopherNoFrameskip-v4': 2412.5, # 17
+            'JamesbondNoFrameskip-v4': 302.8, # 18
+            'KangarooNoFrameskip-v4': 3035.0, # 19
+            'KrullNoFrameskip-v4': 2665.5, # 20
+            'KungFuMasterNoFrameskip-v4': 12736.3, # 21
+            'PrivateEyeNoFrameskip-v4': 1001.3, # 22
+            'UpNDownNoFrameskip-v4': 11693.2, # 23
+            'QbertNoFrameskip-v4': 13455.0, # 24
+            'BreakoutNoFrameskip-v4': 30.5, # 25
+            # --- 经典射击与反应 ---
+            'SpaceInvadersNoFrameskip-v4': 1669.7,    
+            'RiverRaidNoFrameskip-v4'   : 17117.1, 
+            'BeamRiderNoFrameskip-v4'   : 16926.5,    
+            
+            # --- 物理与惯性控制 ---
+            'AsteroidsNoFrameskip-v4'   : 47388.7,    
+            'GravitarNoFrameskip-v4'    : 3351.4,     
+            
+            # --- 探索与长时序规划 (Hard-Exploration) ---
+            'PitfallNoFrameskip-v4'     : 6463.7,     
+            'AdventureNoFrameskip-v4'   : 0.0,        
+            'EnduroNoFrameskip-v4'      : 860.5,      # 长时程任务，有昼夜变化，考验模型的耐力和持续表现
+        }
+
+
+        # 计算每个游戏的 target_return
+        # return {env: int(round(score * ratio)) for env, score in human_scores.items()}
+        return {env: int(round(score * ratio)) for env, score in target_scores.items()}
+
+
+    global target_return_dict 
+    # global BENCHMARK_NAME
+    # BENCHMARK_NAME='atari'
+
+    # 示例：以 ratio=1 使用
+    target_return_dict = get_atari_target_return_dict(ratio=1)
+    # target_return_dict = get_atari_target_return_dict(ratio=0.5)
+    num_games = 1 # 26 # 8
+
+    # 分别定义 Atari 游戏列表（8games 和 26games）
+    if num_games==1:
+            env_id_list = [
+            'SpaceInvadersNoFrameskip-v4'
+        ]
+            
+    if num_games==3:
+            env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+        ]
+    elif num_games==8:
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+        ]
+    elif num_games==26:
+        # List of Atari games used for multi-task learning
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+            'AmidarNoFrameskip-v4', 'AssaultNoFrameskip-v4', 'AsterixNoFrameskip-v4', 'BankHeistNoFrameskip-v4',
+            'BattleZoneNoFrameskip-v4', 'CrazyClimberNoFrameskip-v4', 'DemonAttackNoFrameskip-v4', 'FreewayNoFrameskip-v4',
+            'FrostbiteNoFrameskip-v4', 'GopherNoFrameskip-v4', 'JamesbondNoFrameskip-v4', 'KangarooNoFrameskip-v4',
+            'KrullNoFrameskip-v4', 'KungFuMasterNoFrameskip-v4', 'PrivateEyeNoFrameskip-v4', 'UpNDownNoFrameskip-v4',
+            'QbertNoFrameskip-v4', 'BreakoutNoFrameskip-v4',
+        ]
+    
+    global curriculum_stage_num
+    # TODO ==============
+    # curriculum_stage_num=3
+    curriculum_stage_num=5
+    # curriculum_stage_num=9
+
+    action_space_size = 18
+    collector_env_num = 8
+    num_segments = 8
+    n_episode = 8
+    evaluator_env_num = 3
+    num_simulations = 25          # collect时使用的模拟次数
+    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+    max_env_step = int(4e5)
+    reanalyze_ratio = 0.0
+    if len(env_id_list) == 1:
+        effective_batch_size = 512
+    elif len(env_id_list) == 8:
+        effective_batch_size = 512
+    elif len(env_id_list) == 26:
+        # effective_batch_size = 832  # cnn-encoder
+        effective_batch_size = 512   # base-vit-encoder 
+        # effective_batch_size = 256   # base-vit-encoder  large-vit-encoder
+    elif len(env_id_list) == 18:
+        effective_batch_size = 512 * 3  # 1536 
+    else:
+        raise ValueError("不支持的环境数量: {}".format(n))
+
+    batch_sizes, grad_acc_steps = compute_batch_config(env_id_list, effective_batch_size)
+    total_batch_size =  effective_batch_size # 当前无效
+
+    num_unroll_steps = 10
+    infer_context_length = 4
+    norm_type = 'LN'
+    # buffer_reanalyze_freq = 1 / 50
+    buffer_reanalyze_freq = 1 / 1000000
+    reanalyze_batch_size = 160
+    reanalyze_partition = 0.75
+
+    # ======== TODO: only for debug ========
+    # collector_env_num = 2
+    # num_segments = 2
+    # n_episode = 2
+    # evaluator_env_num = 2
+    # num_simulations = 1
+    # reanalyze_batch_size = 2
+    # num_unroll_steps = 5
+    # infer_context_length = 2
+    # batch_sizes = [4 for _ in range(len(env_id_list))]
+
+    from lzero.entry import train_unizero_multitask_segment_ddp
+    finetune_components = [] # load-enc-trans_finetune-head
+    # finetune_components = ['transformer'] # load-enc-trans_finetune-trans-head
+    # finetune_components = ["representation_network", "encoder"] # load-enc-trans_finetune-encoder-head
+
+    for seed in [0]:
+        configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                   norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                   num_segments, total_batch_size)
+        pretrained_model_path = '/fs-computility/niuyazhe/tangjia/github/LightZero/ckpt/ckpt_best.pth.tar'
+        with DDPContext():
+            train_unizero_multitask_segment_ddp(configs, seed=seed, model_path=pretrained_model_path, max_env_step=max_env_step, benchmark_name="atari",finetune_components=finetune_components)
+            # ======== TODO: only for debug ========
+            # train_unizero_multitask_segment_ddp(configs[:2], seed=seed, max_env_step=max_env_step) # train on the first four tasks
+            
+            
+
+# TODO(pu): only for debug，设置环境变量DEBUG=1
+# from train_grpo_rm_colocate import maybe_ipdb
+# import torch.distributed as dist
+# maybe_ipdb(dist.get_rank())
\ No newline at end of file
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py
new file mode 100644
index 000000000..63a26f54f
--- /dev/null
+++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py
@@ -0,0 +1,442 @@
+from easydict import EasyDict
+
+import math
+
+# -------------------------------------------------
+# 1. 重新实现 compute_batch_config
+# -------------------------------------------------
+def compute_batch_config(
+        env_id_list,
+        effective_batch_size: int,
+        gpu_num: int = 8,
+        max_micro_batch_one_gpu: int = 400,
+):
+    """
+    Args:
+        env_id_list (list[str]): 所有任务的环境 id
+        effective_batch_size (int): 希望一次反向传播等价的全局 batch
+        gpu_num (int): 实际使用的 GPU 数量
+        max_micro_batch_one_gpu (int): 单卡能接受的最大 micro-batch
+    Returns:
+        batch_sizes (list[int]): 每个 env 的 micro-batch
+        grad_acc_steps (int): 梯度累积步数/fs-computility/niuyazhe/tangjia/github/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py
+    """
+    n_env = len(env_id_list)
+    # 每张卡要同时跑多少个 env
+    envs_per_gpu = max(1, math.ceil(n_env / gpu_num))
+    # 针对“多 env 共用一张卡”的情况缩小 micro-batch 上限
+    max_micro_batch = max(1, max_micro_batch_one_gpu // envs_per_gpu)
+
+    # 先按均分做一个“候选 micro-batch”
+    candidate = max(1, effective_batch_size // n_env)
+    micro_batch = min(candidate, max_micro_batch)
+
+    # 梯度累积步数 = ceil(全局 batch / (micro * n_env))
+    grad_acc_steps = max(1, math.ceil(effective_batch_size / (micro_batch * n_env)))
+
+    # 再向下微调 micro-batch，让
+    #     micro_batch * n_env * grad_acc_steps <= effective_batch_size
+    # 尽量贴合而不超额
+    while micro_batch * n_env * grad_acc_steps > effective_batch_size:
+        micro_batch -= 1
+        if micro_batch == 0:      # 理论上不会发生，防御一下
+            micro_batch = 1
+            break
+
+    batch_sizes = [micro_batch] * n_env
+
+    # —— 调试信息 —— #
+    real_total = micro_batch * n_env * grad_acc_steps
+    print(
+        f"[BatchConfig] envs={n_env}, target_total={effective_batch_size}, "
+        f"micro={micro_batch}, grad_acc={grad_acc_steps}, real_total={real_total}"
+    )
+
+    return batch_sizes, grad_acc_steps
+
+def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                  norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                  total_batch_size, num_layers):
+    return EasyDict(dict(
+        env=dict(
+            stop_value=int(1e6),
+            env_id=env_id,
+            observation_shape=(3, 64, 64),
+            gray_scale=False,
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            n_evaluator_episode=evaluator_env_num,
+            manager=dict(shared_memory=False),
+            full_action_space=True,
+            collect_max_episode_steps=int(5e3),
+            eval_max_episode_steps=int(5e3),
+            # ===== only for debug =====
+            # collect_max_episode_steps=int(200),
+            # eval_max_episode_steps=int(200),
+        ),
+        policy=dict(
+            multi_gpu=True,  # Very important for ddp
+            only_use_moco_stats=False,
+            use_moco=False,  # ==============TODO==============
+            # use_moco=True,  # ==============TODO: moco==============
+            learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=50000))),
+            grad_correct_params=dict(
+                MoCo_beta=0.5, MoCo_beta_sigma=0.5, MoCo_gamma=0.1, MoCo_gamma_sigma=0.5, MoCo_rho=0,
+                calpha=0.5, rescale=1,
+            ),
+            # moco_version="v0",
+            moco_version="v1",  # ==============TODO: moco==============
+            total_task_num=len(env_id_list),
+            task_num=len(env_id_list),
+            task_id=0,
+            model=dict(
+                observation_shape=(3, 64, 64),
+                action_space_size=action_space_size,
+                norm_type=norm_type,
+                num_res_blocks=2,
+                num_channels=256,
+                # num_channels=512, # ==============TODO==============
+                continuous_action_space=False,
+                world_model_cfg=dict(
+                    # use_global_pooling=True,
+                    use_global_pooling=False,
+
+                    final_norm_option_in_obs_head='LayerNorm', # ==============TODO:orig==============
+                    final_norm_option_in_encoder='LayerNorm',
+                    predict_latent_loss_type='mse', # TODO: for latent state layer_norm
+                                        
+                    # final_norm_option_in_obs_head='SimNorm',
+                    # final_norm_option_in_encoder='SimNorm',
+                    # predict_latent_loss_type='group_kl', # TODO: only for latent state sim_norm
+                   
+                    # share_head=True, # TODO
+                    share_head=False, # TODO
+
+                    analysis_dormant_ratio_weight_rank=True,  # ==============TODO==============
+                    # analysis_dormant_ratio_weight_rank=False, # TODO
+                    analysis_dormant_ratio_interval=100, # TODO
+                    # analysis_dormant_ratio_interval=5000,
+                    # analysis_dormant_ratio_interval=20,
+
+                    continuous_action_space=False,
+                                        
+                    task_embed_option=None,   # ==============TODO:orig==============
+                    use_task_embed=False, # ==============TODO==============
+
+                    # task_embed_option='concat_task_embed', 
+                    # use_task_embed=True, # ==============TODO: taskembed128==============
+                    # task_embed_dim=128,
+
+                    use_shared_projection=False,
+                    max_blocks=num_unroll_steps,
+                    max_tokens=2 * num_unroll_steps,
+                    context_length=2 * infer_context_length,
+                    device='cuda',
+                    action_space_size=action_space_size,
+                    # batch_size=64 8games训练时，每张卡大约占 12*3=36G cuda显存
+                    # num_layers=12,
+                    # num_heads=24,
+
+                    num_layers=num_layers,
+                    # num_layers=8,
+                    # num_layers=12, # todo
+                    num_heads=24,
+
+                    embed_dim=768, #768
+                    obs_type='image',
+                    env_num=8,
+                    task_num=len(env_id_list),
+                    encoder_type='vit', # =======TODO: vit=======
+                    # encoder_type='resnet', # ==============TODO:orig==============
+
+                    use_normal_head=True,
+                    use_softmoe_head=False,
+                    use_moe_head=False,
+                    num_experts_in_moe_head=4,
+
+                    moe_in_transformer=False,
+                    multiplication_moe_in_transformer=True, # ==============TODO:orig==============
+                    # multiplication_moe_in_transformer=True, # =======TODO: moe8=======
+                    n_shared_experts=1,
+                    num_experts_per_tok=1,
+                    num_experts_of_moe_in_transformer=8,
+
+                    # LoRA 参数：
+                    moe_use_lora=False, # TDO
+                    lora_r= 0,
+                    lora_alpha =1,
+                    lora_dropout= 0.0,
+                ),
+            ),
+            use_task_exploitation_weight=False, # TODO
+            task_complexity_weight=False, # TODO
+            total_batch_size=total_batch_size,
+            allocated_batch_sizes=False,
+            train_start_after_envsteps=int(0), # TODO: DEBUG
+            # train_start_after_envsteps=int(2000),
+            use_priority=False,
+            print_task_priority_logs=False,
+            cuda=True,
+            model_path=None,
+            num_unroll_steps=num_unroll_steps,
+            game_segment_length=20,
+            # update_per_collect=160, # TODO: replay_ratio=1  20*8*1=160 not-use now
+            update_per_collect=80, # TODO: replay_ratio=0.5  20*8*0.5=80 atari8-nlayer8 atari26
+            # update_per_collect=40, # TODO: replay_ratio=0.25  20*8*0.25=40  atari8-nlayer4
+            # update_per_collect=2, # TODO: only for debug
+            replay_ratio=0.25,
+            batch_size=batch_size,
+            optim_type='AdamW',
+            # cos_lr_scheduler=True, # TODO
+            cos_lr_scheduler=False,
+            num_segments=num_segments,
+            num_simulations=num_simulations,
+            eval_num_simulations=eval_num_simulations,
+            reanalyze_ratio=reanalyze_ratio,
+            n_episode=n_episode,
+            replay_buffer_size=int(5e5),
+            # eval_freq=int(1e4), # TODO: 8games
+            eval_freq=int(2e4),  # TODO: 26games
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            buffer_reanalyze_freq=buffer_reanalyze_freq,
+            reanalyze_batch_size=reanalyze_batch_size,
+            reanalyze_partition=reanalyze_partition,
+        ),
+    ))
+def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                     norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                     num_segments, total_batch_size, num_layers):
+    configs = []
+    # ===== only for debug =====
+    # exp_name_prefix = f'data_unizero_atari_mt_20250522_debug/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco-v1_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+
+    # ========= TODO: global BENCHMARK_NAME =========
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_moco_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    exp_name_prefix = 'debug/moe/'
+    # exp_name_prefix = f'data_unizero_atari_mt_20250612/atari_{len(env_id_list)}games_orig_moco_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250611/atari_{len(env_id_list)}games_orig_vit_moe8_tbs256_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_taskembed128_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_simnorm-kl_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_ln-mse_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_ln-mse_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250601/atari_{len(env_id_list)}games_orig_vit_ln-mse_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250601/atari_{len(env_id_list)}games_orig_vit_ln-mse_moe8_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_taskembed128_tran-nlayer{num_layers}_rr1_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_tran-nlayer{num_layers}_rr1_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco_tran-nlayer4_rr025_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_20250508/atari_{len(env_id_list)}games_orig_simnorm_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_20250508/atari_{len(env_id_list)}games_vit_simnorm_tran-nlayer{num_layers}-moe8_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+  
+
+    for task_id, env_id in enumerate(env_id_list):
+        config = create_config(
+            env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+            buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
+        )
+        config.policy.task_id = task_id
+        config.exp_name = exp_name_prefix + f"{env_id.split('NoFrameskip')[0]}_seed{seed}"
+        configs.append([task_id, [config, create_env_manager()]])
+    return configs
+
+def create_env_manager():
+    return EasyDict(dict(
+        env=dict(
+            type='atari_lightzero',
+            import_names=['zoo.atari.envs.atari_lightzero_env'],
+        ),
+        env_manager=dict(type='subprocess'),
+        policy=dict(
+            type='unizero_multitask',
+            import_names=['lzero.policy.unizero_multitask'],
+        ),
+    ))
+
+if __name__ == "__main__":
+    """
+    Overview:
+        This script should be executed with <nproc_per_node> GPUs.
+        Run the following command to launch the script:
+
+        =========== volce atari8 =========================
+        cd /fs-computility/niuyazhe/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/niuyazhe/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /fs-computility/niuyazhe/puyuan/code/LightZero/log/20250509/uz_mt_atari8_orig_ln-mse_moe8_moco_nlayer8_brf002_seed12.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/niuyazhe/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /fs-computility/niuyazhe/puyuan/code/LightZero/log/20250509/uz_mt_atari26_orig_vit_ln-mse_moe8_nlayer8_brf002_seed12.log
+
+
+        =========== cpfs atari8 =========================
+        cd /cpfs04/user/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=4 --master_port=29501 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_moco-v1_lop_nlayer8_brf0_seed2.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_vit_moe8_lop_nlayer8_brf0_seed1.log
+
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_taskembed128_lop_nlayer8_brf0_seed1.log
+
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_lop_nlayer8_brf0_seed1.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_nlayer8_brf002_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=2 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco-v1_nlayer4_brf0_seed01.log
+
+        # python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco-v0_nlayer4_brf0_seed01.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moco-v0_nlayer4_brf0_seed01.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moco-v1_nlayer4_brf0_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_nlayer8_brf002_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_nlayer4_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_nlayer4_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_rr1_seed01.log
+
+        =========== oss atari26 =========================
+        cd /oss/niuyazhe/puyuan/data/data_lz_202505/
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_nlayer8_rr1_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_nlayer8_rr05_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_simnorm-kl_vit_moe8_taskembed128_nlayer4_rr025_seed0.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco_nlayer4_rr025_seed0.log
+
+        torchrun --nproc_per_node=8 ./zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
+    """
+# /fs-computility/niuyazhe/tangjia/code/LightZero-dev-multitask-balance-clean/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+    from lzero.entry import train_unizero_multitask_segment_ddp
+    from ding.utils import DDPContext
+    import os
+
+
+    num_games = 8 # 26 # 8
+    num_layers = 4 # ==============TODO==============
+    action_space_size = 18
+    collector_env_num = 8
+    num_segments = 8
+    n_episode = 8
+    evaluator_env_num = 3
+    num_simulations = 25          # collect时使用的模拟次数
+    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+    max_env_step = int(4e5)
+    reanalyze_ratio = 0.0
+
+    
+    if num_games==3:
+            env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+        ]
+    elif num_games==8:
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+        ]
+    elif num_games==26:
+        # List of Atari games used for multi-task learning
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+            'AmidarNoFrameskip-v4', 'AssaultNoFrameskip-v4', 'AsterixNoFrameskip-v4', 'BankHeistNoFrameskip-v4',
+            'BattleZoneNoFrameskip-v4', 'CrazyClimberNoFrameskip-v4', 'DemonAttackNoFrameskip-v4', 'FreewayNoFrameskip-v4',
+            'FrostbiteNoFrameskip-v4', 'GopherNoFrameskip-v4', 'JamesbondNoFrameskip-v4', 'KangarooNoFrameskip-v4',
+            'KrullNoFrameskip-v4', 'KungFuMasterNoFrameskip-v4', 'PrivateEyeNoFrameskip-v4', 'UpNDownNoFrameskip-v4',
+            'QbertNoFrameskip-v4', 'BreakoutNoFrameskip-v4',
+        ]
+
+    if len(env_id_list) == 8:
+        if num_layers == 4:
+            # effective_batch_size =  1024 # nlayer4 需要设置replay_ratio=0.25对应的upc=40
+            effective_batch_size =  512 # nlayer4 需要设置replay_ratio=0.25对应的upc=40 moco
+        elif num_layers == 8:
+            effective_batch_size = 512 # nlayer8 需要设置replay_ratio=0.5对应的upc=80
+            # effective_batch_size = 256 # moco nlayer8 需要设置replay_ratio=0.5对应的upc=80
+        elif num_layers == 1:
+            effective_batch_size = 256 
+    elif len(env_id_list) == 26:
+        # effective_batch_size = 832  # cnn-encoder
+        # effective_batch_size = 1024  # base-vit-encoder transformer-nlayer4  or cnn-encoder
+        effective_batch_size = 512  # base-vit-encoder transformer-nlayer4 transformer-nlayer8 需要设置replay_ratio=0.5对应的upc
+        # effective_batch_size = 256   # large-vit-encoder
+    elif len(env_id_list) == 18:
+        effective_batch_size = 512 * 3  # 1536 
+    elif len(env_id_list) == 3:
+        effective_batch_size = 10  # debug
+    else:
+        raise ValueError("不支持的环境数量: {}".format(n))
+
+    batch_sizes, grad_acc_steps = compute_batch_config(env_id_list, effective_batch_size)
+    total_batch_size =  effective_batch_size # 当前无效
+
+    num_unroll_steps = 10
+    infer_context_length = 4
+    # infer_context_length = 5 # ==============TODO==============
+
+    norm_type = 'LN'
+    # buffer_reanalyze_freq = 1 / 50
+    buffer_reanalyze_freq = 1 / 1000000
+    reanalyze_batch_size = 160
+    reanalyze_partition = 0.75
+
+    # ======== TODO: only for debug ========
+    # num_games=3
+    # env_id_list = [
+    #         'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+    #     ]
+    # num_layers = 1 # ==============TODO==============
+    # collector_env_num = 2
+    # num_segments = 2
+    # n_episode = 2
+    # evaluator_env_num = 2
+    # num_simulations = 5
+    # reanalyze_batch_size = 2
+    # num_unroll_steps = 5
+    # infer_context_length = 2
+    # batch_sizes = [20 for _ in range(len(env_id_list))]
+    # total_batch_size =  20*len(env_id_list)
+    # max_env_step = 300
+
+    import torch.distributed as dist
+    # for seed in [1]:
+    for seed in [0]:
+        configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                   norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                   num_segments, total_batch_size, num_layers)
+
+        with DDPContext():
+            train_unizero_multitask_segment_ddp(configs, seed=seed, max_env_step=max_env_step, benchmark_name= "atari" )
+            # ======== TODO: only for debug ========
+            # train_unizero_multitask_segment_ddp(configs[:2], seed=seed, max_env_step=max_env_step) # train on the first four tasks
+            print(f"seed: {seed} done!")
+            dist.destroy_process_group()
+    
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_8layer.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_8layer.py
new file mode 100644
index 000000000..2ad11a06c
--- /dev/null
+++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_8layer.py
@@ -0,0 +1,442 @@
+from easydict import EasyDict
+
+import math
+
+# -------------------------------------------------
+# 1. 重新实现 compute_batch_config
+# -------------------------------------------------
+def compute_batch_config(
+        env_id_list,
+        effective_batch_size: int,
+        gpu_num: int = 8,
+        max_micro_batch_one_gpu: int = 400,
+):
+    """
+    Args:
+        env_id_list (list[str]): 所有任务的环境 id
+        effective_batch_size (int): 希望一次反向传播等价的全局 batch
+        gpu_num (int): 实际使用的 GPU 数量
+        max_micro_batch_one_gpu (int): 单卡能接受的最大 micro-batch
+    Returns:
+        batch_sizes (list[int]): 每个 env 的 micro-batch
+        grad_acc_steps (int): 梯度累积步数/fs-computility/niuyazhe/tangjia/github/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe.py
+    """
+    n_env = len(env_id_list)
+    # 每张卡要同时跑多少个 env
+    envs_per_gpu = max(1, math.ceil(n_env / gpu_num))
+    # 针对“多 env 共用一张卡”的情况缩小 micro-batch 上限
+    max_micro_batch = max(1, max_micro_batch_one_gpu // envs_per_gpu)
+
+    # 先按均分做一个“候选 micro-batch”
+    candidate = max(1, effective_batch_size // n_env)
+    micro_batch = min(candidate, max_micro_batch)
+
+    # 梯度累积步数 = ceil(全局 batch / (micro * n_env))
+    grad_acc_steps = max(1, math.ceil(effective_batch_size / (micro_batch * n_env)))
+
+    # 再向下微调 micro-batch，让
+    #     micro_batch * n_env * grad_acc_steps <= effective_batch_size
+    # 尽量贴合而不超额
+    while micro_batch * n_env * grad_acc_steps > effective_batch_size:
+        micro_batch -= 1
+        if micro_batch == 0:      # 理论上不会发生，防御一下
+            micro_batch = 1
+            break
+
+    batch_sizes = [micro_batch] * n_env
+
+    # —— 调试信息 —— #
+    real_total = micro_batch * n_env * grad_acc_steps
+    print(
+        f"[BatchConfig] envs={n_env}, target_total={effective_batch_size}, "
+        f"micro={micro_batch}, grad_acc={grad_acc_steps}, real_total={real_total}"
+    )
+
+    return batch_sizes, grad_acc_steps
+
+def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                  norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                  total_batch_size, num_layers):
+    return EasyDict(dict(
+        env=dict(
+            stop_value=int(1e6),
+            env_id=env_id,
+            observation_shape=(3, 64, 64),
+            gray_scale=False,
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            n_evaluator_episode=evaluator_env_num,
+            manager=dict(shared_memory=False),
+            full_action_space=True,
+            collect_max_episode_steps=int(5e3),
+            eval_max_episode_steps=int(5e3),
+            # ===== only for debug =====
+            # collect_max_episode_steps=int(200),
+            # eval_max_episode_steps=int(200),
+        ),
+        policy=dict(
+            multi_gpu=True,  # Very important for ddp
+            only_use_moco_stats=False,
+            use_moco=False,  # ==============TODO==============
+            # use_moco=True,  # ==============TODO: moco==============
+            learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=200000))),
+            grad_correct_params=dict(
+                MoCo_beta=0.5, MoCo_beta_sigma=0.5, MoCo_gamma=0.1, MoCo_gamma_sigma=0.5, MoCo_rho=0,
+                calpha=0.5, rescale=1,
+            ),
+            # moco_version="v0",
+            moco_version="v1",  # ==============TODO: moco==============
+            total_task_num=len(env_id_list),
+            task_num=len(env_id_list),
+            task_id=0,
+            model=dict(
+                observation_shape=(3, 64, 64),
+                action_space_size=action_space_size,
+                norm_type=norm_type,
+                num_res_blocks=2,
+                num_channels=256,
+                # num_channels=512, # ==============TODO==============
+                continuous_action_space=False,
+                world_model_cfg=dict(
+                    # use_global_pooling=True,
+                    use_global_pooling=False,
+
+                    final_norm_option_in_obs_head='LayerNorm', # ==============TODO:orig==============
+                    final_norm_option_in_encoder='LayerNorm',
+                    predict_latent_loss_type='mse', # TODO: for latent state layer_norm
+                                        
+                    # final_norm_option_in_obs_head='SimNorm',
+                    # final_norm_option_in_encoder='SimNorm',
+                    # predict_latent_loss_type='group_kl', # TODO: only for latent state sim_norm
+                   
+                    # share_head=True, # TODO
+                    share_head=False, # TODO
+
+                    analysis_dormant_ratio_weight_rank=True,  # ==============TODO==============
+                    # analysis_dormant_ratio_weight_rank=False, # TODO
+                    analysis_dormant_ratio_interval=100, # TODO
+                    # analysis_dormant_ratio_interval=5000,
+                    # analysis_dormant_ratio_interval=20,
+
+                    continuous_action_space=False,
+                                        
+                    task_embed_option=None,   # ==============TODO:orig==============
+                    use_task_embed=False, # ==============TODO==============
+
+                    # task_embed_option='concat_task_embed', 
+                    # use_task_embed=True, # ==============TODO: taskembed128==============
+                    # task_embed_dim=128,
+
+                    use_shared_projection=False,
+                    max_blocks=num_unroll_steps,
+                    max_tokens=2 * num_unroll_steps,
+                    context_length=2 * infer_context_length,
+                    device='cuda',
+                    action_space_size=action_space_size,
+                    # batch_size=64 8games训练时，每张卡大约占 12*3=36G cuda显存
+                    # num_layers=12,
+                    # num_heads=24,
+
+                    num_layers=num_layers,
+                    # num_layers=8,
+                    # num_layers=12, # todo
+                    num_heads=24,
+
+                    embed_dim=768, #768
+                    obs_type='image',
+                    env_num=8,
+                    task_num=len(env_id_list),
+                    encoder_type='vit', # =======TODO: vit=======
+                    # encoder_type='resnet', # ==============TODO:orig==============
+
+                    use_normal_head=True,
+                    use_softmoe_head=False,
+                    use_moe_head=False,
+                    num_experts_in_moe_head=4,
+
+                    moe_in_transformer=False,
+                    multiplication_moe_in_transformer=True, # ==============TODO:orig==============
+                    # multiplication_moe_in_transformer=True, # =======TODO: moe8=======
+                    n_shared_experts=1,
+                    num_experts_per_tok=1,
+                    num_experts_of_moe_in_transformer=8,
+
+                    # LoRA 参数：
+                    moe_use_lora=False, # TDO
+                    lora_r= 0,
+                    lora_alpha =1,
+                    lora_dropout= 0.0,
+                ),
+            ),
+            use_task_exploitation_weight=False, # TODO
+            task_complexity_weight=False, # TODO
+            total_batch_size=total_batch_size,
+            allocated_batch_sizes=False,
+            train_start_after_envsteps=int(0), # TODO: DEBUG
+            # train_start_after_envsteps=int(2000),
+            use_priority=False,
+            print_task_priority_logs=False,
+            cuda=True,
+            model_path=None,
+            num_unroll_steps=num_unroll_steps,
+            game_segment_length=20,
+            # update_per_collect=160, # TODO: replay_ratio=1  20*8*1=160 not-use now
+            update_per_collect=80, # TODO: replay_ratio=0.5  20*8*0.5=80 atari8-nlayer8 atari26
+            # update_per_collect=40, # TODO: replay_ratio=0.25  20*8*0.25=40  atari8-nlayer4
+            # update_per_collect=2, # TODO: only for debug
+            replay_ratio=0.25,
+            batch_size=batch_size,
+            optim_type='AdamW',
+            # cos_lr_scheduler=True, # TODO
+            cos_lr_scheduler=False,
+            num_segments=num_segments,
+            num_simulations=num_simulations,
+            eval_num_simulations=eval_num_simulations,
+            reanalyze_ratio=reanalyze_ratio,
+            n_episode=n_episode,
+            replay_buffer_size=int(5e5),
+            # eval_freq=int(1e4), # TODO: 8games
+            eval_freq=int(2e4),  # TODO: 26games
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            buffer_reanalyze_freq=buffer_reanalyze_freq,
+            reanalyze_batch_size=reanalyze_batch_size,
+            reanalyze_partition=reanalyze_partition,
+        ),
+    ))
+def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                     norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                     num_segments, total_batch_size, num_layers):
+    configs = []
+    # ===== only for debug =====
+    # exp_name_prefix = f'data_unizero_atari_mt_20250522_debug/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco-v1_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+
+    # ========= TODO: global BENCHMARK_NAME =========
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_moco_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    exp_name_prefix = 'debug/moe/'
+    # exp_name_prefix = f'data_unizero_atari_mt_20250612/atari_{len(env_id_list)}games_orig_moco_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250611/atari_{len(env_id_list)}games_orig_vit_moe8_tbs256_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_taskembed128_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_simnorm-kl_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_ln-mse_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_ln-mse_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250601/atari_{len(env_id_list)}games_orig_vit_ln-mse_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250601/atari_{len(env_id_list)}games_orig_vit_ln-mse_moe8_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_taskembed128_tran-nlayer{num_layers}_rr1_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_tran-nlayer{num_layers}_rr1_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco_tran-nlayer4_rr025_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_20250508/atari_{len(env_id_list)}games_orig_simnorm_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_20250508/atari_{len(env_id_list)}games_vit_simnorm_tran-nlayer{num_layers}-moe8_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+  
+
+    for task_id, env_id in enumerate(env_id_list):
+        config = create_config(
+            env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+            buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
+        )
+        config.policy.task_id = task_id
+        config.exp_name = exp_name_prefix + f"{env_id.split('NoFrameskip')[0]}_seed{seed}"
+        configs.append([task_id, [config, create_env_manager()]])
+    return configs
+
+def create_env_manager():
+    return EasyDict(dict(
+        env=dict(
+            type='atari_lightzero',
+            import_names=['zoo.atari.envs.atari_lightzero_env'],
+        ),
+        env_manager=dict(type='subprocess'),
+        policy=dict(
+            type='unizero_multitask',
+            import_names=['lzero.policy.unizero_multitask'],
+        ),
+    ))
+
+if __name__ == "__main__":
+    """
+    Overview:
+        This script should be executed with <nproc_per_node> GPUs.
+        Run the following command to launch the script:
+
+        =========== volce atari8 =========================
+        cd /fs-computility/niuyazhe/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/niuyazhe/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /fs-computility/niuyazhe/puyuan/code/LightZero/log/20250509/uz_mt_atari8_orig_ln-mse_moe8_moco_nlayer8_brf002_seed12.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/niuyazhe/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /fs-computility/niuyazhe/puyuan/code/LightZero/log/20250509/uz_mt_atari26_orig_vit_ln-mse_moe8_nlayer8_brf002_seed12.log
+
+
+        =========== cpfs atari8 =========================
+        cd /cpfs04/user/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=4 --master_port=29501 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_moco-v1_lop_nlayer8_brf0_seed2.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_vit_moe8_lop_nlayer8_brf0_seed1.log
+
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_taskembed128_lop_nlayer8_brf0_seed1.log
+
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_lop_nlayer8_brf0_seed1.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_nlayer8_brf002_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=2 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco-v1_nlayer4_brf0_seed01.log
+
+        # python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco-v0_nlayer4_brf0_seed01.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moco-v0_nlayer4_brf0_seed01.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moco-v1_nlayer4_brf0_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_nlayer8_brf002_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_nlayer4_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_nlayer4_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_rr1_seed01.log
+
+        =========== oss atari26 =========================
+        cd /oss/niuyazhe/puyuan/data/data_lz_202505/
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_nlayer8_rr1_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_nlayer8_rr05_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_simnorm-kl_vit_moe8_taskembed128_nlayer4_rr025_seed0.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco_nlayer4_rr025_seed0.log
+
+        torchrun --nproc_per_node=8 ./zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
+    """
+# /fs-computility/niuyazhe/tangjia/code/LightZero-dev-multitask-balance-clean/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+    from lzero.entry import train_unizero_multitask_segment_ddp
+    from ding.utils import DDPContext
+    import os
+
+
+    num_games = 8 # 26 # 8
+    num_layers = 4 # ==============TODO==============
+    action_space_size = 18
+    collector_env_num = 8
+    num_segments = 8
+    n_episode = 8
+    evaluator_env_num = 3
+    num_simulations = 25          # collect时使用的模拟次数
+    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+    max_env_step = int(4e5)
+    reanalyze_ratio = 0.0
+
+    
+    if num_games==3:
+            env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+        ]
+    elif num_games==8:
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+        ]
+    elif num_games==26:
+        # List of Atari games used for multi-task learning
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+            'AmidarNoFrameskip-v4', 'AssaultNoFrameskip-v4', 'AsterixNoFrameskip-v4', 'BankHeistNoFrameskip-v4',
+            'BattleZoneNoFrameskip-v4', 'CrazyClimberNoFrameskip-v4', 'DemonAttackNoFrameskip-v4', 'FreewayNoFrameskip-v4',
+            'FrostbiteNoFrameskip-v4', 'GopherNoFrameskip-v4', 'JamesbondNoFrameskip-v4', 'KangarooNoFrameskip-v4',
+            'KrullNoFrameskip-v4', 'KungFuMasterNoFrameskip-v4', 'PrivateEyeNoFrameskip-v4', 'UpNDownNoFrameskip-v4',
+            'QbertNoFrameskip-v4', 'BreakoutNoFrameskip-v4',
+        ]
+
+    if len(env_id_list) == 8:
+        if num_layers == 4:
+            # effective_batch_size =  1024 # nlayer4 需要设置replay_ratio=0.25对应的upc=40
+            effective_batch_size =  512 # nlayer4 需要设置replay_ratio=0.25对应的upc=40 moco
+        elif num_layers == 8:
+            effective_batch_size = 512 # nlayer8 需要设置replay_ratio=0.5对应的upc=80
+            # effective_batch_size = 256 # moco nlayer8 需要设置replay_ratio=0.5对应的upc=80
+        elif num_layers == 1:
+            effective_batch_size = 256 
+    elif len(env_id_list) == 26:
+        # effective_batch_size = 832  # cnn-encoder
+        # effective_batch_size = 1024  # base-vit-encoder transformer-nlayer4  or cnn-encoder
+        effective_batch_size = 512  # base-vit-encoder transformer-nlayer4 transformer-nlayer8 需要设置replay_ratio=0.5对应的upc
+        # effective_batch_size = 256   # large-vit-encoder
+    elif len(env_id_list) == 18:
+        effective_batch_size = 512 * 3  # 1536 
+    elif len(env_id_list) == 3:
+        effective_batch_size = 10  # debug
+    else:
+        raise ValueError("不支持的环境数量: {}".format(n))
+
+    batch_sizes, grad_acc_steps = compute_batch_config(env_id_list, effective_batch_size)
+    total_batch_size =  effective_batch_size # 当前无效
+
+    num_unroll_steps = 10
+    infer_context_length = 4
+    # infer_context_length = 5 # ==============TODO==============
+
+    norm_type = 'LN'
+    # buffer_reanalyze_freq = 1 / 50
+    buffer_reanalyze_freq = 1 / 1000000
+    reanalyze_batch_size = 160
+    reanalyze_partition = 0.75
+
+    # ======== TODO: only for debug ========
+    # num_games=3
+    # env_id_list = [
+    #         'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+    #     ]
+    # num_layers = 1 # ==============TODO==============
+    # collector_env_num = 2
+    # num_segments = 2
+    # n_episode = 2
+    # evaluator_env_num = 2
+    # num_simulations = 5
+    # reanalyze_batch_size = 2
+    # num_unroll_steps = 5
+    # infer_context_length = 2
+    # batch_sizes = [20 for _ in range(len(env_id_list))]
+    # total_batch_size =  20*len(env_id_list)
+    # max_env_step = 300
+
+    import torch.distributed as dist
+    # for seed in [1]:
+    for seed in [100]:
+        configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                   norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                   num_segments, total_batch_size, num_layers)
+
+        with DDPContext():
+            train_unizero_multitask_segment_ddp(configs, seed=seed, max_env_step=max_env_step, benchmark_name= "atari" )
+            # ======== TODO: only for debug ========
+            # train_unizero_multitask_segment_ddp(configs[:2], seed=seed, max_env_step=max_env_step) # train on the first four tasks
+            print(f"seed: {seed} done!")
+            dist.destroy_process_group()
+    
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_noshare.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_noshare.py
new file mode 100644
index 000000000..4b32b7463
--- /dev/null
+++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_noshare.py
@@ -0,0 +1,442 @@
+from easydict import EasyDict
+
+import math
+
+# -------------------------------------------------
+# 1. 重新实现 compute_batch_config
+# -------------------------------------------------
+def compute_batch_config(
+        env_id_list,
+        effective_batch_size: int,
+        gpu_num: int = 8,
+        max_micro_batch_one_gpu: int = 400,
+):
+    """
+    Args:
+        env_id_list (list[str]): 所有任务的环境 id
+        effective_batch_size (int): 希望一次反向传播等价的全局 batch
+        gpu_num (int): 实际使用的 GPU 数量
+        max_micro_batch_one_gpu (int): 单卡能接受的最大 micro-batch
+    Returns:
+        batch_sizes (list[int]): 每个 env 的 micro-batch
+        grad_acc_steps (int): 梯度累积步数
+    """
+    n_env = len(env_id_list)
+    # 每张卡要同时跑多少个 env
+    envs_per_gpu = max(1, math.ceil(n_env / gpu_num))
+    # 针对“多 env 共用一张卡”的情况缩小 micro-batch 上限
+    max_micro_batch = max(1, max_micro_batch_one_gpu // envs_per_gpu)
+
+    # 先按均分做一个“候选 micro-batch”
+    candidate = max(1, effective_batch_size // n_env)
+    micro_batch = min(candidate, max_micro_batch)
+
+    # 梯度累积步数 = ceil(全局 batch / (micro * n_env))
+    grad_acc_steps = max(1, math.ceil(effective_batch_size / (micro_batch * n_env)))
+
+    # 再向下微调 micro-batch，让
+    #     micro_batch * n_env * grad_acc_steps <= effective_batch_size
+    # 尽量贴合而不超额
+    while micro_batch * n_env * grad_acc_steps > effective_batch_size:
+        micro_batch -= 1
+        if micro_batch == 0:      # 理论上不会发生，防御一下
+            micro_batch = 1
+            break
+
+    batch_sizes = [micro_batch] * n_env
+
+    # —— 调试信息 —— #
+    real_total = micro_batch * n_env * grad_acc_steps
+    print(
+        f"[BatchConfig] envs={n_env}, target_total={effective_batch_size}, "
+        f"micro={micro_batch}, grad_acc={grad_acc_steps}, real_total={real_total}"
+    )
+
+    return batch_sizes, grad_acc_steps
+
+def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                  norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                  total_batch_size, num_layers):
+    return EasyDict(dict(
+        env=dict(
+            stop_value=int(1e6),
+            env_id=env_id,
+            observation_shape=(3, 64, 64),
+            gray_scale=False,
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            n_evaluator_episode=evaluator_env_num,
+            manager=dict(shared_memory=False),
+            full_action_space=True,
+            collect_max_episode_steps=int(5e3),
+            eval_max_episode_steps=int(5e3),
+            # ===== only for debug =====
+            # collect_max_episode_steps=int(200),
+            # eval_max_episode_steps=int(200),
+        ),
+        policy=dict(
+            multi_gpu=True,  # Very important for ddp
+            only_use_moco_stats=False,
+            use_moco=False,  # ==============TODO==============
+            # use_moco=True,  # ==============TODO: moco==============
+            learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=200000))),
+            grad_correct_params=dict(
+                MoCo_beta=0.5, MoCo_beta_sigma=0.5, MoCo_gamma=0.1, MoCo_gamma_sigma=0.5, MoCo_rho=0,
+                calpha=0.5, rescale=1,
+            ),
+            # moco_version="v0",
+            moco_version="v1",  # ==============TODO: moco==============
+            total_task_num=len(env_id_list),
+            task_num=len(env_id_list),
+            task_id=0,
+            model=dict(
+                observation_shape=(3, 64, 64),
+                action_space_size=action_space_size,
+                norm_type=norm_type,
+                num_res_blocks=2,
+                num_channels=256,
+                # num_channels=512, # ==============TODO==============
+                continuous_action_space=False,
+                world_model_cfg=dict(
+                    # use_global_pooling=True,
+                    use_global_pooling=False,
+
+                    final_norm_option_in_obs_head='LayerNorm', # ==============TODO:orig==============
+                    final_norm_option_in_encoder='LayerNorm',
+                    predict_latent_loss_type='mse', # TODO: for latent state layer_norm
+                                        
+                    # final_norm_option_in_obs_head='SimNorm',
+                    # final_norm_option_in_encoder='SimNorm',
+                    # predict_latent_loss_type='group_kl', # TODO: only for latent state sim_norm
+                   
+                    # share_head=True, # TODO
+                    share_head=False, # TODO
+
+                    analysis_dormant_ratio_weight_rank=True,  # ==============TODO==============
+                    # analysis_dormant_ratio_weight_rank=False, # TODO
+                    analysis_dormant_ratio_interval=100, # TODO
+                    # analysis_dormant_ratio_interval=5000,
+                    # analysis_dormant_ratio_interval=20,
+
+                    continuous_action_space=False,
+                                        
+                    task_embed_option=None,   # ==============TODO:orig==============
+                    use_task_embed=False, # ==============TODO==============
+
+                    # task_embed_option='concat_task_embed', 
+                    # use_task_embed=True, # ==============TODO: taskembed128==============
+                    # task_embed_dim=128,
+
+                    use_shared_projection=False,
+                    max_blocks=num_unroll_steps,
+                    max_tokens=2 * num_unroll_steps,
+                    context_length=2 * infer_context_length,
+                    device='cuda',
+                    action_space_size=action_space_size,
+                    # batch_size=64 8games训练时，每张卡大约占 12*3=36G cuda显存
+                    # num_layers=12, /fs-computility/niuyazhe/tangjia/github/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_noshare.py
+                    num_heads=24,
+
+                    num_layers=num_layers,
+                    # num_layers=8,
+                    # num_layers=12, # todo
+                    # num_heads=1,
+
+                    embed_dim=768, #768
+                    obs_type='image',
+                    env_num=8,
+                    task_num=len(env_id_list),
+                    encoder_type='vit', # =======TODO: vit=======
+                    # encoder_type='resnet', # ==============TODO:orig==============
+
+                    use_normal_head=True,
+                    use_softmoe_head=False,
+                    use_moe_head=False,
+                    num_experts_in_moe_head=4,
+
+                    moe_in_transformer=False,
+                    # multiplication_moe_in_transformer=False, # ==============TODO:orig==============
+                    multiplication_moe_in_transformer=True, # =======TODO: moe8=======
+                    n_shared_experts=0,
+                    num_experts_per_tok=1,
+                    num_experts_of_moe_in_transformer=8,
+
+                    # LoRA 参数：
+                    moe_use_lora=False, # TDO
+                    lora_r= 0,
+                    lora_alpha =1,
+                    lora_dropout= 0.0,
+                ),
+            ),
+            use_task_exploitation_weight=False, # TODO
+            task_complexity_weight=False, # TODO
+            total_batch_size=total_batch_size,
+            allocated_batch_sizes=False,
+            train_start_after_envsteps=int(0), # TODO: DEBUG
+            # train_start_after_envsteps=int(2000),
+            use_priority=False,
+            print_task_priority_logs=False,
+            cuda=True,
+            model_path=None,
+            num_unroll_steps=num_unroll_steps,
+            game_segment_length=20,
+            # update_per_collect=160, # TODO: replay_ratio=1  20*8*1=160 not-use now
+            update_per_collect=80, # TODO: replay_ratio=0.5  20*8*0.5=80 atari8-nlayer8 atari26
+            # update_per_collect=40, # TODO: replay_ratio=0.25  20*8*0.25=40  atari8-nlayer4
+            # update_per_collect=2, # TODO: only for debug
+            replay_ratio=0.25,
+            batch_size=batch_size,
+            optim_type='AdamW',
+            # cos_lr_scheduler=True, # TODO
+            cos_lr_scheduler=False,
+            num_segments=num_segments,
+            num_simulations=num_simulations,
+            eval_num_simulations=eval_num_simulations,
+            reanalyze_ratio=reanalyze_ratio,
+            n_episode=n_episode,
+            replay_buffer_size=int(5e5),
+            # eval_freq=int(1e4), # TODO: 8games
+            eval_freq=int(2e4),  # TODO: 26games
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            buffer_reanalyze_freq=buffer_reanalyze_freq,
+            reanalyze_batch_size=reanalyze_batch_size,
+            reanalyze_partition=reanalyze_partition,
+        ),
+    ))
+def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                     norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                     num_segments, total_batch_size, num_layers):
+    configs = []
+    # ===== only for debug =====
+    # exp_name_prefix = f'data_unizero_atari_mt_20250522_debug/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco-v1_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+
+    # ========= TODO: global BENCHMARK_NAME =========
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_moco_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    exp_name_prefix = f'debug/atari_unizero_multitask_segment_ddp_config_noshare/atari_{len(env_id_list)}games_vit-small_moe8_tbs512_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    # exp_name_prefix = f'data_unizero_atari_mt_20250612/atari_{len(env_id_list)}games_orig_moco_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250611/atari_{len(env_id_list)}games_orig_vit_moe8_tbs256_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_taskembed128_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_simnorm-kl_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_ln-mse_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_ln-mse_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250601/atari_{len(env_id_list)}games_orig_vit_ln-mse_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250601/atari_{len(env_id_list)}games_orig_vit_ln-mse_moe8_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_taskembed128_tran-nlayer{num_layers}_rr1_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_tran-nlayer{num_layers}_rr1_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco_tran-nlayer4_rr025_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_20250508/atari_{len(env_id_list)}games_orig_simnorm_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_20250508/atari_{len(env_id_list)}games_vit_simnorm_tran-nlayer{num_layers}-moe8_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+  
+
+    for task_id, env_id in enumerate(env_id_list):
+        config = create_config(
+            env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+            buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
+        )
+        config.policy.task_id = task_id
+        config.exp_name = exp_name_prefix + f"{env_id.split('NoFrameskip')[0]}_seed{seed}"
+        configs.append([task_id, [config, create_env_manager()]])
+    return configs
+
+def create_env_manager():
+    return EasyDict(dict(
+        env=dict(
+            type='atari_lightzero',
+            import_names=['zoo.atari.envs.atari_lightzero_env'],
+        ),
+        env_manager=dict(type='subprocess'),
+        policy=dict(
+            type='unizero_multitask',
+            import_names=['lzero.policy.unizero_multitask'],
+        ),
+    ))
+
+if __name__ == "__main__":
+    """
+    Overview:
+        This script should be executed with <nproc_per_node> GPUs.
+        Run the following command to launch the script:
+
+        =========== volce atari8 =========================
+        cd /fs-computility/niuyazhe/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/niuyazhe/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /fs-computility/niuyazhe/puyuan/code/LightZero/log/20250509/uz_mt_atari8_orig_ln-mse_moe8_moco_nlayer8_brf002_seed12.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/niuyazhe/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /fs-computility/niuyazhe/puyuan/code/LightZero/log/20250509/uz_mt_atari26_orig_vit_ln-mse_moe8_nlayer8_brf002_seed12.log
+
+
+        =========== cpfs atari8 =========================
+        cd /cpfs04/user/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=4 --master_port=29501 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_moco-v1_lop_nlayer8_brf0_seed2.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_vit_moe8_lop_nlayer8_brf0_seed1.log
+
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_taskembed128_lop_nlayer8_brf0_seed1.log
+
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_lop_nlayer8_brf0_seed1.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_nlayer8_brf002_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=2 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco-v1_nlayer4_brf0_seed01.log
+
+        # python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco-v0_nlayer4_brf0_seed01.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moco-v0_nlayer4_brf0_seed01.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moco-v1_nlayer4_brf0_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_nlayer8_brf002_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_nlayer4_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_nlayer4_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_rr1_seed01.log
+
+        =========== oss atari26 =========================
+        cd /oss/niuyazhe/puyuan/data/data_lz_202505/
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_nlayer8_rr1_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_nlayer8_rr05_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_simnorm-kl_vit_moe8_taskembed128_nlayer4_rr025_seed0.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco_nlayer4_rr025_seed0.log
+
+        torchrun --nproc_per_node=8 ./zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
+    """
+# /fs-computility/niuyazhe/tangjia/code/LightZero-dev-multitask-balance-clean/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+    from lzero.entry import train_unizero_multitask_segment_ddp
+    from ding.utils import DDPContext
+    import os
+
+
+    num_games = 8 # 26 # 8
+    num_layers = 1 # ==============TODO==============
+    action_space_size = 18
+    collector_env_num = 8
+    num_segments = 8
+    n_episode = 8
+    evaluator_env_num = 3
+    num_simulations = 25          # collect时使用的模拟次数
+    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+    max_env_step = int(4e5)
+    reanalyze_ratio = 0.0
+
+    
+    if num_games==3:
+            env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+        ]
+    elif num_games==8:
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+        ]
+    elif num_games==26:
+        # List of Atari games used for multi-task learning
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+            'AmidarNoFrameskip-v4', 'AssaultNoFrameskip-v4', 'AsterixNoFrameskip-v4', 'BankHeistNoFrameskip-v4',
+            'BattleZoneNoFrameskip-v4', 'CrazyClimberNoFrameskip-v4', 'DemonAttackNoFrameskip-v4', 'FreewayNoFrameskip-v4',
+            'FrostbiteNoFrameskip-v4', 'GopherNoFrameskip-v4', 'JamesbondNoFrameskip-v4', 'KangarooNoFrameskip-v4',
+            'KrullNoFrameskip-v4', 'KungFuMasterNoFrameskip-v4', 'PrivateEyeNoFrameskip-v4', 'UpNDownNoFrameskip-v4',
+            'QbertNoFrameskip-v4', 'BreakoutNoFrameskip-v4',
+        ]
+
+    if len(env_id_list) == 8:
+        if num_layers == 4:
+            # effective_batch_size =  1024 # nlayer4 需要设置replay_ratio=0.25对应的upc=40
+            effective_batch_size =  512 # nlayer4 需要设置replay_ratio=0.25对应的upc=40 moco
+        elif num_layers == 8:
+            effective_batch_size = 512 # nlayer8 需要设置replay_ratio=0.5对应的upc=80
+            # effective_batch_size = 256 # moco nlayer8 需要设置replay_ratio=0.5对应的upc=80
+        elif num_layers == 1:
+            effective_batch_size = 256 
+    elif len(env_id_list) == 26:
+        # effective_batch_size = 832  # cnn-encoder
+        # effective_batch_size = 1024  # base-vit-encoder transformer-nlayer4  or cnn-encoder
+        effective_batch_size = 512  # base-vit-encoder transformer-nlayer4 transformer-nlayer8 需要设置replay_ratio=0.5对应的upc
+        # effective_batch_size = 256   # large-vit-encoder
+    elif len(env_id_list) == 18:
+        effective_batch_size = 512 * 3  # 1536 
+    elif len(env_id_list) == 3:
+        effective_batch_size = 10  # debug
+    else:
+        raise ValueError("不支持的环境数量: {}".format(n))
+
+    batch_sizes, grad_acc_steps = compute_batch_config(env_id_list, effective_batch_size)
+    total_batch_size =  effective_batch_size # 当前无效
+
+    num_unroll_steps = 10
+    infer_context_length = 4
+    # infer_context_length = 5 # ==============TODO==============
+
+    norm_type = 'LN'
+    # buffer_reanalyze_freq = 1 / 50
+    buffer_reanalyze_freq = 1 / 1000000
+    reanalyze_batch_size = 160
+    reanalyze_partition = 0.75
+
+    # ======== TODO: only for debug ========
+    # num_games=3
+    # env_id_list = [
+    #         'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+    #     ]
+    # num_layers = 1 # ==============TODO==============
+    # collector_env_num = 2
+    # num_segments = 2
+    # n_episode = 2
+    # evaluator_env_num = 2
+    # num_simulations = 5
+    # reanalyze_batch_size = 2
+    # num_unroll_steps = 5
+    # infer_context_length = 2
+    # batch_sizes = [20 for _ in range(len(env_id_list))]
+    # total_batch_size =  20*len(env_id_list)
+    # max_env_step = 300
+
+    import torch.distributed as dist
+    # for seed in [1]:
+    for seed in [100]:
+        configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                   norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                   num_segments, total_batch_size, num_layers)
+
+        with DDPContext():
+            train_unizero_multitask_segment_ddp(configs, seed=seed, max_env_step=max_env_step, benchmark_name= "atari" )
+            # ======== TODO: only for debug ========
+            # train_unizero_multitask_segment_ddp(configs[:2], seed=seed, max_env_step=max_env_step) # train on the first four tasks
+            print(f"seed: {seed} done!")
+            dist.destroy_process_group()
+    
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_only_share.py b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_only_share.py
new file mode 100644
index 000000000..66ac93dff
--- /dev/null
+++ b/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_only_share.py
@@ -0,0 +1,442 @@
+from easydict import EasyDict
+
+import math
+
+# -------------------------------------------------
+# 1. 重新实现 compute_batch_config
+# -------------------------------------------------
+def compute_batch_config(
+        env_id_list,
+        effective_batch_size: int,
+        gpu_num: int = 8,
+        max_micro_batch_one_gpu: int = 400,
+):
+    """
+    Args:
+        env_id_list (list[str]): 所有任务的环境 id
+        effective_batch_size (int): 希望一次反向传播等价的全局 batch
+        gpu_num (int): 实际使用的 GPU 数量
+        max_micro_batch_one_gpu (int): 单卡能接受的最大 micro-batch
+    Returns:
+        batch_sizes (list[int]): 每个 env 的 micro-batch
+        grad_acc_steps (int): 梯度累积步数
+    """
+    n_env = len(env_id_list)
+    # 每张卡要同时跑多少个 env
+    envs_per_gpu = max(1, math.ceil(n_env / gpu_num))
+    # 针对“多 env 共用一张卡”的情况缩小 micro-batch 上限
+    max_micro_batch = max(1, max_micro_batch_one_gpu // envs_per_gpu)
+
+    # 先按均分做一个“候选 micro-batch”
+    candidate = max(1, effective_batch_size // n_env)
+    micro_batch = min(candidate, max_micro_batch)
+
+    # 梯度累积步数 = ceil(全局 batch / (micro * n_env))
+    grad_acc_steps = max(1, math.ceil(effective_batch_size / (micro_batch * n_env)))
+
+    # 再向下微调 micro-batch，让
+    #     micro_batch * n_env * grad_acc_steps <= effective_batch_size
+    # 尽量贴合而不超额
+    while micro_batch * n_env * grad_acc_steps > effective_batch_size:
+        micro_batch -= 1
+        if micro_batch == 0:      # 理论上不会发生，防御一下
+            micro_batch = 1
+            break
+
+    batch_sizes = [micro_batch] * n_env
+
+    # —— 调试信息 —— #
+    real_total = micro_batch * n_env * grad_acc_steps
+    print(
+        f"[BatchConfig] envs={n_env}, target_total={effective_batch_size}, "
+        f"micro={micro_batch}, grad_acc={grad_acc_steps}, real_total={real_total}"
+    )
+
+    return batch_sizes, grad_acc_steps
+
+def create_config(env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode,
+                  num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                  norm_type, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments,
+                  total_batch_size, num_layers):
+    return EasyDict(dict(
+        env=dict(
+            stop_value=int(1e6),
+            env_id=env_id,
+            observation_shape=(3, 64, 64),
+            gray_scale=False,
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            n_evaluator_episode=evaluator_env_num,
+            manager=dict(shared_memory=False),
+            full_action_space=True,
+            collect_max_episode_steps=int(5e3),
+            eval_max_episode_steps=int(5e3),
+            # ===== only for debug =====
+            # collect_max_episode_steps=int(200),
+            # eval_max_episode_steps=int(200),
+        ),
+        policy=dict(
+            multi_gpu=True,  # Very important for ddp
+            only_use_moco_stats=False,
+            use_moco=False,  # ==============TODO==============
+            # use_moco=True,  # ==============TODO: moco==============
+            learn=dict(learner=dict(hook=dict(save_ckpt_after_iter=50000))),
+            grad_correct_params=dict(
+                MoCo_beta=0.5, MoCo_beta_sigma=0.5, MoCo_gamma=0.1, MoCo_gamma_sigma=0.5, MoCo_rho=0,
+                calpha=0.5, rescale=1,
+            ),
+            # moco_version="v0",
+            moco_version="v1",  # ==============TODO: moco==============
+            total_task_num=len(env_id_list),
+            task_num=len(env_id_list),
+            task_id=0,
+            model=dict(
+                observation_shape=(3, 64, 64),
+                action_space_size=action_space_size,
+                norm_type=norm_type,
+                num_res_blocks=2,
+                num_channels=256,
+                # num_channels=512, # ==============TODO==============
+                continuous_action_space=False,
+                world_model_cfg=dict(
+                    # use_global_pooling=True,
+                    use_global_pooling=False,
+
+                    final_norm_option_in_obs_head='LayerNorm', # ==============TODO:orig==============
+                    final_norm_option_in_encoder='LayerNorm',
+                    predict_latent_loss_type='mse', # TODO: for latent state layer_norm
+                                        
+                    # final_norm_option_in_obs_head='SimNorm',
+                    # final_norm_option_in_encoder='SimNorm',
+                    # predict_latent_loss_type='group_kl', # TODO: only for latent state sim_norm
+                   
+                    # share_head=True, # TODO
+                    share_head=False, # TODO
+
+                    analysis_dormant_ratio_weight_rank=True,  # ==============TODO==============
+                    # analysis_dormant_ratio_weight_rank=False, # TODO
+                    analysis_dormant_ratio_interval=100, # TODO
+                    # analysis_dormant_ratio_interval=5000,
+                    # analysis_dormant_ratio_interval=20,
+
+                    continuous_action_space=False,
+                                        
+                    task_embed_option=None,   # ==============TODO:orig==============
+                    use_task_embed=False, # ==============TODO==============
+
+                    # task_embed_option='concat_task_embed', 
+                    # use_task_embed=True, # ==============TODO: taskembed128==============
+                    # task_embed_dim=128,
+
+                    use_shared_projection=False,
+                    max_blocks=num_unroll_steps,
+                    max_tokens=2 * num_unroll_steps,
+                    context_length=2 * infer_context_length,
+                    device='cuda',
+                    action_space_size=action_space_size,
+                    # batch_size=64 8games训练时，每张卡大约占 12*3=36G cuda显存
+                    # num_layers=12,
+                    # num_heads=24,
+
+                    num_layers=num_layers,
+                    # num_layers=8,
+                    # num_layers=12, # todo
+                    num_heads=24,
+
+                    embed_dim=768, #768
+                    obs_type='image',
+                    env_num=8,
+                    task_num=len(env_id_list),
+                    encoder_type='vit', # =======TODO: vit=======
+                    # encoder_type='resnet', # ==============TODO:orig==============/fs-computility/niuyazhe/tangjia/github/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config_moe_only_share.py
+
+                    use_normal_head=True,
+                    use_softmoe_head=False,
+                    use_moe_head=False,
+                    num_experts_in_moe_head=4,
+
+                    moe_in_transformer=False,
+                    # multiplication_moe_in_transformer=False, # ==============TODO:orig==============
+                    multiplication_moe_in_transformer=True, # =======TODO: moe8=======
+                    n_shared_experts=1,
+                    num_experts_per_tok=1,
+                    num_experts_of_moe_in_transformer=0,
+
+                    # LoRA 参数：
+                    moe_use_lora=False, # TDO
+                    lora_r= 0,
+                    lora_alpha =1,
+                    lora_dropout= 0.0,
+                ),
+            ),
+            use_task_exploitation_weight=False, # TODO
+            task_complexity_weight=False, # TODO
+            total_batch_size=total_batch_size,
+            allocated_batch_sizes=False,
+            train_start_after_envsteps=int(0), # TODO: DEBUG
+            # train_start_after_envsteps=int(2000),
+            use_priority=False,
+            print_task_priority_logs=False,
+            cuda=True,
+            model_path=None,
+            num_unroll_steps=num_unroll_steps,
+            game_segment_length=20,
+            # update_per_collect=160, # TODO: replay_ratio=1  20*8*1=160 not-use now
+            update_per_collect=80, # TODO: replay_ratio=0.5  20*8*0.5=80 atari8-nlayer8 atari26
+            # update_per_collect=40, # TODO: replay_ratio=0.25  20*8*0.25=40  atari8-nlayer4
+            # update_per_collect=2, # TODO: only for debug
+            replay_ratio=0.25,
+            batch_size=batch_size,
+            optim_type='AdamW',
+            # cos_lr_scheduler=True, # TODO
+            cos_lr_scheduler=False,
+            num_segments=num_segments,
+            num_simulations=num_simulations,
+            eval_num_simulations=eval_num_simulations,
+            reanalyze_ratio=reanalyze_ratio,
+            n_episode=n_episode,
+            replay_buffer_size=int(5e5),
+            # eval_freq=int(1e4), # TODO: 8games
+            eval_freq=int(2e4),  # TODO: 26games
+            collector_env_num=collector_env_num,
+            evaluator_env_num=evaluator_env_num,
+            buffer_reanalyze_freq=buffer_reanalyze_freq,
+            reanalyze_batch_size=reanalyze_batch_size,
+            reanalyze_partition=reanalyze_partition,
+        ),
+    ))
+def generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                     num_simulations, eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length,
+                     norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                     num_segments, total_batch_size, num_layers):
+    configs = []
+    # ===== only for debug =====
+    # exp_name_prefix = f'data_unizero_atari_mt_20250522_debug/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco-v1_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+
+    # ========= TODO: global BENCHMARK_NAME =========
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_moco_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    exp_name_prefix = "debug/moe_onlyshare/"
+    # exp_name_prefix = f'data_unizero_atari_mt_20250612/atari_{len(env_id_list)}games_orig_moco_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250611/atari_{len(env_id_list)}games_orig_vit_moe8_tbs256_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_taskembed128_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_simnorm-kl_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_ln-mse_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250605/atari_{len(env_id_list)}games_orig_ln-mse_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250601/atari_{len(env_id_list)}games_orig_vit_ln-mse_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250601/atari_{len(env_id_list)}games_orig_vit_ln-mse_moe8_moco-memeff_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_taskembed128_tran-nlayer{num_layers}_rr1_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_tran-nlayer{num_layers}_rr1_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_unizero_atari_mt_20250521/atari_{len(env_id_list)}games_orig_simnorm-kl_vit_moe8_moco_tran-nlayer4_rr025_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_20250508/atari_{len(env_id_list)}games_orig_simnorm_tran-nlayer{num_layers}_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+
+    # exp_name_prefix = f'data_lz/data_unizero_atari_mt_20250508/atari_{len(env_id_list)}games_vit_simnorm_tran-nlayer{num_layers}-moe8_brf{buffer_reanalyze_freq}_not-share-head_seed{seed}/'
+  
+
+    for task_id, env_id in enumerate(env_id_list):
+        config = create_config(
+            env_id, action_space_size, collector_env_num, evaluator_env_num, n_episode, num_simulations,
+            eval_num_simulations, reanalyze_ratio, batch_size, num_unroll_steps, infer_context_length, norm_type,
+            buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition, num_segments, total_batch_size, num_layers
+        )
+        config.policy.task_id = task_id
+        config.exp_name = exp_name_prefix + f"{env_id.split('NoFrameskip')[0]}_seed{seed}"
+        configs.append([task_id, [config, create_env_manager()]])
+    return configs
+
+def create_env_manager():
+    return EasyDict(dict(
+        env=dict(
+            type='atari_lightzero',
+            import_names=['zoo.atari.envs.atari_lightzero_env'],
+        ),
+        env_manager=dict(type='subprocess'),
+        policy=dict(
+            type='unizero_multitask',
+            import_names=['lzero.policy.unizero_multitask'],
+        ),
+    ))
+
+if __name__ == "__main__":
+    """
+    Overview:
+        This script should be executed with <nproc_per_node> GPUs.
+        Run the following command to launch the script:
+
+        =========== volce atari8 =========================
+        cd /fs-computility/niuyazhe/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/niuyazhe/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /fs-computility/niuyazhe/puyuan/code/LightZero/log/20250509/uz_mt_atari8_orig_ln-mse_moe8_moco_nlayer8_brf002_seed12.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /fs-computility/niuyazhe/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /fs-computility/niuyazhe/puyuan/code/LightZero/log/20250509/uz_mt_atari26_orig_vit_ln-mse_moe8_nlayer8_brf002_seed12.log
+
+
+        =========== cpfs atari8 =========================
+        cd /cpfs04/user/puyuan/code/LightZero/
+        python -m torch.distributed.launch --nproc_per_node=4 --master_port=29501 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_moco-v1_lop_nlayer8_brf0_seed2.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_vit_moe8_lop_nlayer8_brf0_seed1.log
+
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_taskembed128_lop_nlayer8_brf0_seed1.log
+
+        python -m torch.distributed.launch --nproc_per_node=6 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_lop_nlayer8_brf0_seed1.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_nlayer8_brf002_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=2 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco-v1_nlayer4_brf0_seed01.log
+
+        # python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco-v0_nlayer4_brf0_seed01.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moco-v0_nlayer4_brf0_seed01.log
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moco-v1_nlayer4_brf0_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_nlayer8_brf002_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_nlayer4_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_nlayer4_seed01.log
+
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari8_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_cpfs/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_rr1_seed01.log
+
+        =========== oss atari26 =========================
+        cd /oss/niuyazhe/puyuan/data/data_lz_202505/
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_simnorm-kl_vit_moe8_taskembed128_nlayer8_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari26_orig_nlayer8_rr1_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_nlayer8_rr05_seed01.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_simnorm-kl_vit_moe8_taskembed128_nlayer4_rr025_seed0.log
+
+        python -m torch.distributed.launch --nproc_per_node=8 --master_port=29502 /cpfs04/user/puyuan/code/LightZero/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py 2>&1 | tee /cpfs04/user/puyuan/code/LightZero/log/20250522_oss/uz_mt_atari8_orig_simnorm-kl_vit_moe8_moco_nlayer4_rr025_seed0.log
+
+        torchrun --nproc_per_node=8 ./zoo/atari/config/atari_unizero_multitask_segment_8games_ddp_config.py
+    """
+# /fs-computility/niuyazhe/tangjia/code/LightZero-dev-multitask-balance-clean/zoo/atari/config/atari_unizero_multitask_segment_ddp_config.py
+    from lzero.entry import train_unizero_multitask_segment_ddp
+    from ding.utils import DDPContext
+    import os
+
+
+    num_games = 8 # 26 # 8
+    num_layers = 4 # ==============TODO==============
+    action_space_size = 18
+    collector_env_num = 8
+    num_segments = 8
+    n_episode = 8
+    evaluator_env_num = 3
+    num_simulations = 25          # collect时使用的模拟次数
+    eval_num_simulations = 50     # eval时使用的模拟次数（可以设为更高获得更好评估质量）
+    max_env_step = int(4e5)
+    reanalyze_ratio = 0.0
+
+    
+    if num_games==3:
+            env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+        ]
+    elif num_games==8:
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+        ]
+    elif num_games==26:
+        # List of Atari games used for multi-task learning
+        env_id_list = [
+            'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4', 'BoxingNoFrameskip-v4',
+            'AlienNoFrameskip-v4', 'ChopperCommandNoFrameskip-v4', 'HeroNoFrameskip-v4', 'RoadRunnerNoFrameskip-v4',
+            'AmidarNoFrameskip-v4', 'AssaultNoFrameskip-v4', 'AsterixNoFrameskip-v4', 'BankHeistNoFrameskip-v4',
+            'BattleZoneNoFrameskip-v4', 'CrazyClimberNoFrameskip-v4', 'DemonAttackNoFrameskip-v4', 'FreewayNoFrameskip-v4',
+            'FrostbiteNoFrameskip-v4', 'GopherNoFrameskip-v4', 'JamesbondNoFrameskip-v4', 'KangarooNoFrameskip-v4',
+            'KrullNoFrameskip-v4', 'KungFuMasterNoFrameskip-v4', 'PrivateEyeNoFrameskip-v4', 'UpNDownNoFrameskip-v4',
+            'QbertNoFrameskip-v4', 'BreakoutNoFrameskip-v4',
+        ]
+
+    if len(env_id_list) == 8:
+        if num_layers == 4:
+            # effective_batch_size =  1024 # nlayer4 需要设置replay_ratio=0.25对应的upc=40
+            effective_batch_size =  512 # nlayer4 需要设置replay_ratio=0.25对应的upc=40 moco
+        elif num_layers == 8:
+            effective_batch_size = 512 # nlayer8 需要设置replay_ratio=0.5对应的upc=80
+            # effective_batch_size = 256 # moco nlayer8 需要设置replay_ratio=0.5对应的upc=80
+        elif num_layers == 1:
+            effective_batch_size = 256 
+    elif len(env_id_list) == 26:
+        # effective_batch_size = 832  # cnn-encoder
+        # effective_batch_size = 1024  # base-vit-encoder transformer-nlayer4  or cnn-encoder
+        effective_batch_size = 512  # base-vit-encoder transformer-nlayer4 transformer-nlayer8 需要设置replay_ratio=0.5对应的upc
+        # effective_batch_size = 256   # large-vit-encoder
+    elif len(env_id_list) == 18:
+        effective_batch_size = 512 * 3  # 1536 
+    elif len(env_id_list) == 3:
+        effective_batch_size = 10  # debug
+    else:
+        raise ValueError("不支持的环境数量: {}".format(n))
+
+    batch_sizes, grad_acc_steps = compute_batch_config(env_id_list, effective_batch_size)
+    total_batch_size =  effective_batch_size # 当前无效
+
+    num_unroll_steps = 10
+    infer_context_length = 4
+    # infer_context_length = 5 # ==============TODO==============
+
+    norm_type = 'LN'
+    # buffer_reanalyze_freq = 1 / 50
+    buffer_reanalyze_freq = 1 / 1000000
+    reanalyze_batch_size = 160
+    reanalyze_partition = 0.75
+
+    # ======== TODO: only for debug ========
+    # num_games=3
+    # env_id_list = [
+    #         'PongNoFrameskip-v4', 'MsPacmanNoFrameskip-v4', 'SeaquestNoFrameskip-v4'
+    #     ]
+    # num_layers = 1 # ==============TODO==============
+    # collector_env_num = 2
+    # num_segments = 2
+    # n_episode = 2
+    # evaluator_env_num = 2
+    # num_simulations = 5
+    # reanalyze_batch_size = 2
+    # num_unroll_steps = 5
+    # infer_context_length = 2
+    # batch_sizes = [20 for _ in range(len(env_id_list))]
+    # total_batch_size =  20*len(env_id_list)
+    # max_env_step = 300
+
+    import torch.distributed as dist
+    # for seed in [1]:
+    for seed in [0]:
+        configs = generate_configs(env_id_list, action_space_size, collector_env_num, n_episode, evaluator_env_num,
+                                   num_simulations, eval_num_simulations, reanalyze_ratio, batch_sizes, num_unroll_steps, infer_context_length,
+                                   norm_type, seed, buffer_reanalyze_freq, reanalyze_batch_size, reanalyze_partition,
+                                   num_segments, total_batch_size, num_layers)
+
+        with DDPContext():
+            train_unizero_multitask_segment_ddp(configs, seed=seed, max_env_step=max_env_step, benchmark_name= "atari" )
+            # ======== TODO: only for debug ========
+            # train_unizero_multitask_segment_ddp(configs[:2], seed=seed, max_env_step=max_env_step) # train on the first four tasks
+            print(f"seed: {seed} done!")
+            dist.destroy_process_group()
+    
diff --git a/zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py b/zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py
index badcd9585..f83d2dd01 100644
--- a/zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py
+++ b/zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py
@@ -187,8 +187,8 @@ def create_env_manager():
     from ding.utils import DDPContext
     from easydict import EasyDict
 
-    # env_id_list = ['PongNoFrameskip-v4']  # Debug setup
-    env_id_list = ['AmidarNoFrameskip-v4']  # Debug setup
+    env_id_list = ['PongNoFrameskip-v4']  # Debug setup
+    # env_id_list = ['AmidarNoFrameskip-v4']  # Debug setup
 
     action_space_size = 18
 
@@ -217,7 +217,7 @@ def create_env_manager():
         reanalyze_batch_size = 160
         reanalyze_partition = 0.75
 
-        # ======== TODO: only for debug ========
+        # ======== TODO: only for debug ========/fs-computility/niuyazhe/tangjia/github/LightZero/zoo/atari/config/atari_unizero_multitask_segment_finetune_config.py
         # collector_env_num = 2
         # num_segments = 2
         # n_episode = 2
@@ -231,6 +231,6 @@ def create_env_manager():
         # pretrained_model_path = '/mnt/afs/niuyazhe/code/LightZero/data_unizero_mt_ddp-8gpu_1127/8games_brf0.02_nlayer8-nhead24_seed1/8games_brf0.02_1-encoder-LN-res2-channel256_gsl20_8-pred-head_lsd768-nlayer8-nh24_mbs-512-bs64_upc80_seed1/Pong_unizero-mt_seed1/ckpt/iteration_200000.pth.tar'
         # pretrained_model_path = '/mnt/afs/niuyazhe/code/LightZero/data_unizero_atari_mt_20250217/atari_8games_notaskembed_bs64_brf0.02_seed0_dev-uz-mz-mt-cont/Pong_seed0_250218_124624/ckpt/ckpt_best.pth.tar'
 
-        pretrained_model_path = '/fs-computility/ai-shen/puyuan/code/LightZero/data_lz/data_unizero_atari_mt_20250307/atari_8games_brf0.02_not-share-head_final-ln_seed0/Pong_seed0/ckpt/ckpt_best.pth.tar'
+        pretrained_model_path = '/fs-computility/niuyazhe/shared/puyuan/data_lz_atari26/ckpt_best.pth.tar'
         with DDPContext():
             train_unizero_multitask_segment_ddp(configs, seed=seed, model_path=pretrained_model_path, max_env_step=max_env_step)
\ No newline at end of file
diff --git a/zoo/atari/envs/atari_lightzero_env.py b/zoo/atari/envs/atari_lightzero_env.py
index f5e43f6c8..7ba6dce42 100644
--- a/zoo/atari/envs/atari_lightzero_env.py
+++ b/zoo/atari/envs/atari_lightzero_env.py
@@ -177,7 +177,7 @@ def step(self, action: int) -> BaseEnvTimestep:
         self.reward = np.array(reward).astype(np.float32)
         self._eval_episode_return += self.reward
         self._timestep += 1
-        # logging.info(f'self._timestep: {self._timestep}')
+        logging.info(f'self._timestep: {self._timestep}')
         observation = self.observe()
         if done:
             logging.info(f'one episode done! total episode length is: {self._timestep}')