浪潮发布高性能分布式存储平台AS15000G7，加速AI产业化变革_创新

突破数据瓶颈，浪潮高性能存储平台加速产业数智化变革

(相关资料图)

当前，AIGC技术的爆发，让产业智能化和智能产业化进入高速发展期，数据作为关键生产要素，正在成为这轮全球增长和科技创新的引擎。近日，浪潮参加由百易传媒举办的2023全球闪存峰会，并在会上重磅发布高性能分布式存储平台AS15000G7，以在性能、管理、融合和效率方面追求极致的智慧存储新品，构筑智慧世界基石，推进AI产业化变革。

AI大模型对数据存储产业带来的机遇与挑战

AIGC是当前通用人工智能产业发展创新的核心技术，其具备强大的认知智能，在搜索引擎、艺术创作、影音游戏，以及金融、教育、医疗、工业等领域有着广阔的应用前景。Gartner预测，到2023年将有20%的内容被AIGC所创建；到2025 年人工智能生成数据占比将达到10%。据分析师预测，到2032年，生成式AI市场规模将达到2,000亿美元，占据人工智能支出总额的约20%，明显高出当前的5%。换言之，未来十年市场规模可能每两年就会翻一番。

AIGC的爆发，源自于大模型的逐渐成熟，大模型成熟的先决条件是大规模高质量的数据、强大的算力和成熟优化的算法，而其中，数据质量和数量决定了算法的效果和性能。随着参数量和数据量的极速膨胀，数据存储与管理正在成为制约AIGC产业发展的瓶颈：一是要支撑基于海量多元异构数据的归集、标注、训练、推理和归档全生命周期管理；二是要承载AIGC数据训练推理时的高性能、低延时、大容量、易扩展、自由流动的严苛需求。大模型训练数据多元、数据作业流程长、多态大模型数据量持续增长、多模计算大模型性能要求高，对当前AI数据存储基础设施提出了新挑战：

数据归集与准备：大模型的数据包括从互联网及数字图书馆上收集的海量文本型数据，以及多渠道获取的图片型和视频型数据，对这些多元异构海量数据预处理后才能用于大模型训练，在此作业流程中数据的搬运和加载，要去存储系统多协议互访互通，存储成为应用平台的关键瓶颈；

数据训练：大模型海量多元异构数据的训练，通常采用将数据加载到成百上千个节点内存中并行计算的方法，此过程中频繁地从数据集取Token，每个Token一般4字节，实时高并发小IO性能需要极低的延迟，对数据存储系统的吞吐性能提出了严苛的要求；

数据推理：机器学习大模型要求频繁的参数调优，当服务器故障、网络故障造成节点中断时，需要数据存储提供高带宽，确保Checkpoint机制可以快速访问数据，使数据能够重新加载，训练能够快速恢复；

数据归档：越多的数据投喂结果越精准的工作原理，决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征，大模型训练过程中快速迭代，产生大量训练数据和人工标注数据，对这些资产高效存储与管理，且最大化数据基础设施投资回报比，成为数据基础设施厂商必须解决的问题。

浪潮高性能分布式存储平台AS15000G7

产业发展的根本在于科技创新。浪潮作为最早布局AI产业的企业之一，围绕智算中心业务布局，打造了算力、算法、数据全栈解决方案。在数据存储领域，浪潮秉承"存储即平台"的产品理念，准确识别客户痛点积极布局面向AIGC应用场景的数据全生命周期存储解决方案，并基于业界对大模型训练的数据存储在性能、管理、融合和效率方面更极致的需求，重磅发布高性能分布式存储AS15000G7平台，助力AIGC在金融、教育、医疗等领域突破海量多元异构数据存力瓶颈，加速释放数据价值。