5月9日中文通用大模型综合性评测基准SuperCLUE正式发布。经过一天时间的发酵,论坛上对该评测标准质疑的声音越发多了,这是为什么?大模型评测标准设立的难度又在哪里?
科大讯飞董事长刘庆峰认为:如果要努力追赶OpenAI的进度,需要一套科学系统的评测体系;用这一套科学系统,来判定技术迭代到底到了什么程度,还有哪些任务是不达标的。
这是一个从 https://wallstreetcn.com/articles/3688401 下的原始话题分离的讨论话题
5月9日中文通用大模型综合性评测基准SuperCLUE正式发布。经过一天时间的发酵,论坛上对该评测标准质疑的声音越发多了,这是为什么?大模型评测标准设立的难度又在哪里?
科大讯飞董事长刘庆峰认为:如果要努力追赶OpenAI的进度,需要一套科学系统的评测体系;用这一套科学系统,来判定技术迭代到底到了什么程度,还有哪些任务是不达标的。