(相关资料图)
让大家没想到的是,被传的神乎其神的GPT-4依旧是大力出奇迹的产物。回到ensemble的老路上去了,OpenAI一直在画的AGI的大饼感觉又离我们远了。
黑客 George Hotz 在一个播客中透露,GPT-4 是由 8 个 2200 亿参数的 MoE 模型组成的,每个模型都针对不同的数据和任务分布进行了训练,然后通过一些小技巧将它们混合起来。他还说,这样做是因为单个模型的参数规模已经达到了极限,而且训练时间越长效果越差,所以他们采用了多模型集成的方法来提高性能。他认为,OpenAI 对此保密的原因是不想让别人知道他们的模型并不是那么先进,只要花更多的钱就能复制。
这个说法得到了 PyTorch 创始人 Soumith Chintala 的认可2,他表示自己也听过类似的传闻,但只有 George Hotz 在公开场合说出来了。不过,也有人对这个说法表示怀疑或质疑134,认为这样的模型推理成本太高,而且没有充分利用 GPT-4 的潜力。目前,OpenAI 还没有对这个爆料做出任何回应或证实。
这件事情很可能是真的,理由如下:
已知的Prior:
1.多个信源认为GPT4比GPT3.5参数量大至少一个数量级,也就是1.7万亿以上。
2. OpenAI去年六月发表过技术报告说他们训练LLM用了MoE.
现在的观测:
有人说GPT4是一个1.76万亿参数的MoE
网友得知秘诀后,打算自己也要训练一个LLaMA集合体与GPT-4竞争。