随着语言模型的能力越来越强,现有的这些评估基准实在有点小儿科了,有些任务的性能都甩了人类一截。
通用人工智能(AGI)的一个重要特点是模型具有处理人类水平任务的泛化能力,而依赖于人工数据集的传统基准测试并不能准确表示人类的能力。
这是一个从 https://wallstreetcn.com/articles/3688461 下的原始话题分离的讨论话题
随着语言模型的能力越来越强,现有的这些评估基准实在有点小儿科了,有些任务的性能都甩了人类一截。
通用人工智能(AGI)的一个重要特点是模型具有处理人类水平任务的泛化能力,而依赖于人工数据集的传统基准测试并不能准确表示人类的能力。