为何同一个中文大模型，不同评测标准打分差异大？|见智研究

discobot · 2023 年5 月 10 日 13:11

5月9日中文通用大模型综合性评测基准SuperCLUE正式发布。经过一天时间的发酵，论坛上对该评测标准质疑的声音越发多了，这是为什么？大模型评测标准设立的难度又在哪里？

科大讯飞董事长刘庆峰认为：如果要努力追赶OpenAI的进度，需要一套科学系统的评测体系；用这一套科学系统，来判定技术迭代到底到了什么程度，还有哪些任务是不达标的。

这是一个从 https://wallstreetcn.com/articles/3688401 下的原始话题分离的讨论话题