为什么现在的LLM都是Decoder only的架构?

从理论视角强答一波,大部分结论源自个人实验,可能会有偏差。

原文链接:

结论:


这是一个从 https://www.zhihu.com/question/588325646/answer/2940298964 下的原始话题分离的讨论话题