浪潮信息Owen ZHU：大模型百花齐放，算力效率决定速度_创新

(相关资料图)

与狭义的人工智能相比，通用人工智能通过跨领域、跨学科、跨任务和跨模态的大模型，能够满足更广泛的场景需求、实现更高程度的逻辑理解能力与使用工具能力。2023年，随着 LLM 大规模语言模型技术的不断突破，大模型为探索更高阶的通用人工智能带来了新的曙光。通用人工智能进入了快速发展期，在中国，大模型已经呈现出百花齐放的态势，各种大模型层出不穷。

要想在"百模争秀"的时代占得先机，AI开发团队需要着力化解算力、算法、数据层面的巨大挑战，而开发效率和训练速度是保障大模型市场竞争力的核心关键因素，也是未来的核心发力点。近日，浪潮信息人工智能与高性能应用软件部 AI 架构师Owen ZHU参与首届由CSDN、《新程序员》联合主办的NPCon大会，发表重要技术演讲，分享面向新一轮AIGC产业革命，AI大模型的算力系统解决之道，并强调算力、算法、数据和系统架构等多个方面的综合优化对大模型训练到了至关重要的作用。

以下为Owen ZHU在NPCon大会的演讲实录整理：

"百模争秀"时代的算力瓶颈

大模型研发的核心技术是由预训练与Alignment组成的，第一部分就是预训练，需要用大量的数据使模型收敛速度更快、性能更好。第二部分则是Alignment，Alignment不完全等于强化学习，其通过使用多种方式/策略优化模型输出，让AI在和人的交流反馈中学会如何沟通表达，这两部分是提升大模型质量的核心要素。

目前来看，模型基础能力取决于数据、模型参数量和算力。模型参数量越大、投入的训练数据越大，模型泛化能力越强。由于资源限制，在两者不可兼得的时候，应该如何进行取舍呢？OpenAI的研究结论认为，与增加数据量相比，先增大模型参数量受益则会更好，用一千亿的模型训练两千亿的Token和两千亿模型训练一千亿的Token，后者的模型性能会更高。

由此可见，参数量是衡量模型能力的一个重要指标，当模型参数量增长超过一定阈值时，模型能力表现出跃迁式的提升，表现出来语言理解能力、生成能力、逻辑推理能力等能力的显著提升，这也就是我们所说的模型的涌现能力。

模型规模多大能产生涌现能力呢？现在来看，百亿参数是模型具备涌现能力的门槛，千亿参数的模型具备较好的涌现能力。但这并不意味着模型规模就要上升到万亿规模级别的竞争，因为现有大模型并没有得到充分训练，如GPT-3的每个参数基本上只训练了1-2个Token，DeepMind的研究表明，如果把一个大模型训练充分，需要把每个参数量训练20个Token。所以，当前的很多千亿规模的大模型还需要用多10倍的数据进行训练，模型性能才能达到比较好的水平。

无论是提高模型参数量还是提升数据规模，算力依旧是大模型能力提升的核心驱动力：需要用"足够大"的算力，去支撑起"足够精准"模型泛化能力。当前大模型训练的算力当量还在进一步增大，从GPT-3到GPT-4算力当量增长了68倍。算力当量越大，交叉熵越小，模型能力越强。随着训练的token数、模型参数、计算量的增加，语言模型的loss在平滑下降，这就意味着大语言模型的精度可以随着计算量、参数规模、token数扩展进一步提升。