【资料图】

【ITBEAR科技资讯】6月27日消息,微软研究人员日前发布了一项名为ZeRO++的创新技术,该技术旨在解决训练大型AI模型时面临的数据传输成本和带宽限制等挑战,以显著缩短训练时间并节约成本。

据ITBEAR科技资讯了解,ZeRO++在现有的ZeRO传输技术基础上进行了进一步的优化,并提供了增强的通信策略,以提高训练效率,同时减少训练时间和成本。

为了减少参数通信量,ZeRO++采用了一种权重量化的方法。它利用基于块的量化技术来保持训练精度,相比原始的ZeRO传输技术,量化过程更加高效准确。此外,为了尽量减少通信开销,ZeRO++通过在每台机器上保留完整的模型副本,以换取GPU显存来增加通信带宽。在梯度通信方面,ZeRO++引入了一种名为qgZ的新型量化梯度通信方式,可降低跨节点的流量和延迟。

这些改进的通信技术极大地减少了通信量。据微软研究人员表示,与ZeRO相比,ZeRO++可以减少高达4倍的通信量,提高训练吞吐量和效率。当在每个GPU上使用小批量大小时,在高带宽集群中,相较于ZeRO-3,ZeRO++的吞吐量提高了28%至36%。在低带宽集群中,与ZeRO-3相比,ZeRO++实现了平均2倍的加速,使得大型模型的训练在更多种类的集群上成为可能。

ZeRO++的引入为训练大型模型带来了新的可能性,例如Turing-NLG、ChatGPT和GPT-4等。研究人员现已发布了相关技术文档,使得科研人员可以更有效地利用ZeRO++进行模型训练,进一步探索人工智能领域的新发展。

推荐内容