美团 LongCat 发布 AMO-Bench:突破 AIME 评测饱和困境,重新定义 LLM 数学上限


这是一个从 https://tech.meituan.com/2025/11/27/longcat-amo-bench.html 下的原始话题分离的讨论话题