当前位置：网站首页>可省近90%服务器，反欺诈效率却大增，PayPal打破「AI内存墙」的方案为何如此划算？

可省近90%服务器，反欺诈效率却大增，PayPal打破「AI内存墙」的方案为何如此划算？

2022-06-21 22:04:00 【智源社区】

人们常说，新一代的人工智能浪潮是由数据、算法和算力来驱动的。最近几年模型参数的爆炸式增长更是让大家看到了算力的基础性作用。

为了配合企业用户对于算力的强烈需求，当前的很多 AI 硬件（比如 GPU）都铆足了劲儿地提高峰值算力，但这种提升通常以简化或者删除其他部分（例如内存的分层架构）为代价^[1]，这就造成 AI 硬件的内存发展速度远远落后于算力的增长速度。

SOTA Transformer 模型参数量（红点）和 AI 硬件内存大小（绿点）增长趋势对比。

图源：https://github.com/amirgholami/ai_and_memory_wall/blob/main/imgs/pdfs/model_size_scaling.pdf

因此，在遇到大模型的训练和推理时，用户总是感觉显存或内存不够用，这就是所谓的「内存墙」问题。

为了打破内存墙，人们想了很多种办法，比如前段时间大火的 Colossal-AI 项目就是一个适用于训练阶段的方法。在这个项目中，开发者高效利用了「GPU+CPU 异构内存」的策略，使得一块消费级显卡就能训练 180 亿参数的大模型。

而在推理阶段，模型对硬件的主要需求就是加载模型的全部参数量，所以对算力要求相对低一些。一般对于计算密集型模型，我们可以采用 INT8 量化或者模型并行等策略，用多张 GPU 及其显存资源来推理单个模型。但实际上，还有很多工业界应用场景的机器学习或深度学习模型可以使用 CPU 与内存来做推理，例如推荐系统、点击预估等。

对于这些模型，我们除了内存容量上的诉求外，可能还需要考量异常情况下的数据恢复时间、硬件成本、维护成本等问题，这也对破解内存墙方案的选择提出了新的要求。

工业界的推理拦路虎：内存墙
在工业场景下，海量数据、高维模型确实能带来更好的效果，但这些数据的高维、稀疏特征又为计算和存储带来了很大的挑战。毕竟像推荐系统这样的模型，隐藏层大小可能就是数百万的量级，总参数量甚至能达到十万亿的量级，是 GPT-3 的百倍大小，所以其用户往往需要特别强大的内存支持系统才能实现更好的在线推理能力。

既然内存不够，那岂不是直接堆内存条（如 DRAM）就够了？这从原理上是可行的，但一方面 DRAM 内存的价格不便宜啊，这类模型需要的内存又不是几百 GB，而是动不动就冲上数十 TB，而单条 DRAM 内存一般都只有几十 GB，很少有超过 128GB 的。所以，整体算一下，不论是成本，还是在容量扩展上的能力，这一方案都不太容易被大家接受。

此外，DRAM 内存还有一个问题，即数据是易失的，或者说：一断电就丢数据。有时候模型重启或者排除故障的时候，只能重新将权重从更慢的存储设备，如 SSD 或机械硬盘中加载到内存里，非常耽误时间，这对于在线推理业务来说是很难容忍的。

打破推理内存墙，不用 DRAM 用什么？
那么，除了添购 DRAM 这个不太划算的选择外，提供在线推理服务或使用这类应用的企业要打破内存墙，还有其他选择吗？

如果仔细比较一下不同存储层级的容量和延迟数据，我们可以发现，DRAM 内存和固态盘 / 硬盘存储之间其实存在很大的差距。如果能开发一种全新的存储部件或设备来填补这个缺口，那内存墙问题可能就会得到缓解。

这就是英特尔傲腾持久内存（Intel Optane Persistent Memory, 简称 PMem）诞生的背景。其独有的傲腾存储介质与先进的内存控制器和其它软硬件技术相结合，使其在性能上接近 DRAM 内存，在容量上又能有数倍的提升（单条容量可达 512GB），用在基于第三代英特尔至强可扩展处理器的双路平台上时，理论上可提供最高达 12TB 的内存总容量（4TB DRAM+8TB 持久内存），相比之下，基于纯 DRAM 的方案不但在容量扩展能力上远远不及，在成本上也让人难以承受。