行为正则化与顺序策略优化结合的离线多智能体学习算法


这是一个从 https://tech.meituan.com/2025/02/21/marl-in-meituan.html 下的原始话题分离的讨论话题