国产ChatGPT「套壳」的秘密,现在被找到了

“科大讯飞套壳ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商汤大模型实则抄袭!”……

外界对国产大模型产生质疑已经不是一次两次了。

业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车,就会生成相似结果,进而引发乌龙事件。


这是一个从 https://wallstreetcn.com/articles/3689782 下的原始话题分离的讨论话题