网易首页 > 网易号 > 正文 申请入驻

华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

0
分享至




Mixture-of-Experts(MoE)在推理时仅激活每个 token 所需的一小部分专家,凭借其稀疏激活的特点,已成为当前 LLM 中的主流架构。然而,MoE 虽然显著降低了推理时的计算量,但整体参数规模依然大于同等性能的 Dense 模型,因此在显存资源极为受限的端侧部署场景中,仍然面临较大挑战。

现有的主流解决方案是专家卸载(Expert Offloading),即将专家模块存储在下层存储设备(如 CPU 内存甚至磁盘)中,在推理时按需加载激活的专家到显存进行计算。但这一方法存在两大主要缺陷:

  1. 由于不同 token 通常激活的专家不同,每一步推理都需要频繁加载不同的专家,导致显著的推理延迟;
  2. 在批量解码场景中,各 token 可能需要不同的专家,在最坏情况下,甚至需要将一整层的所有专家加载到显存中,进一步加剧显存压力并带来额外的推理延迟。

为了解决上述问题,来自北大和华为诺亚的研究人员提出了 Mixture-of-Lookup-Experts(MoLE),一种在推理阶段可重参数化的新型 MoE 架构。



  • 论文链接:https://arxiv.org/pdf/2503.15798
  • 代码链接:https://github.com/JieShibo/MoLE

思考

本文的核心思考是,在专家卸载方案中,需要将专家模块加载到显存,主要是为了在 GPU 上执行高效的矩阵运算。换句话说,如果专家的计算过程能够绕过矩阵运算的需求,就可以避免将专家权重加载到显存,从而根本上规避频繁加载带来的开销。直观来看,专家模块本质上是一个神经网络,用于建模输入到输出的映射。如果能够在推理前预先计算出所有可能的输入 - 输出对应关系,并将其存储为查找表,那么在推理时即可用简单的查找操作代替矩阵运算。

一般而言,神经网络所建模的映射通常涉及无限多的输入 - 输出对,因此,要实现查找表替代矩阵运算,首先需要确保专家模块的输入来自一个离散且有限的集合,并且这一离散化方法能够适配大规模预训练任务。其次,由于查找操作发生在 GPU 之外,还需要保证检索过程本身不依赖密集计算,避免引入新的性能瓶颈。

基于这一思考,作者注意到,大规模语言模型(LLM)中的 embedding token(即 embedding 层的输出)天然具备离散且有限的特性,其数量与词表大小一致,满足了离散有限要求。并且 embedding token 可以通过 token ID 唯一确定,因此查找表的检索可以采用高效的直接寻址。因此,MoLE 设计中将专家的输入由中间特征改为 embedding token,从而满足了查找表构建的所有要求。

训练阶段

在训练阶段,MoLE 相较于传统的 MoE 架构存在三个主要区别:

  1. 输入调整:将所有路由专家(routed experts)的输入由上一层的输出,改为浅层的 embedding token,以确保专家模块可以被预计算并存储为查找表。
  2. 激活策略:由于查找表检索在推理时无需额外计算,MoLE 无需依赖稀疏激活来控制推理计算量,因此在训练中选择激活所有路由专家。
  3. 损失设计:鉴于不再需要通过稀疏激活实现负载均衡,MoLE 训练时仅使用语言建模损失,不再引入额外的负载均衡损失项。

除此之外,MoLE 的其他设计与标准 MoE 保持一致,包括路由(router)模块和共享专家(shared experts),依然使用上一层的输出作为输入。计算流程如下





推理阶段

在推理前,MoLE 通过预先构建查找表来完成专家模块的重参数化。具体而言,embedding 层的权重矩阵本身即包含了所有 embedding token 的向量表示,因此可以直接以该权重矩阵作为专家模块的输入,并通过各个路由专家分别计算对应的输出。这样,便可以高效地获得完整的 token id 到专家输出的映射集合,用于后续的查找操作。具体过程如下所示:





在查找表构建完成后,所有原始的路由专家模块将被删除,查找表则被存储在下层存储设备中。在推理阶段,对于每个 token,根据其 token ID 直接在查找表中检索对应的专家输出,并将检索到的输出加载到显存中,用于后续的推理计算。整体计算流程如下所示:



复杂度分析

如表所示,在推理阶段,MoLE 的计算过程中仅保留了共享专家模块,因此只有共享专家被激活并参与计算,其整体计算量与具有相同激活参数量的 Dense 模型和传统 MoE 模型相当。相比之下,MoLE 在推理时仅需传输专家输出的结果向量,而传统 MoE 需要传输中间维度 D_r 的专家权重矩阵,因此 MoLE 的传输开销相比 MoE 减少了数个量级。在存储开销方面,对于端侧部署的模型,词表大小 | V | 通常在数万左右,与 D_r 为相同数量级,因此 MoLE 查找表的存储需求与单个专家模块的大小处于同一数量级,不会带来显著额外的存储负担。



实验结果

本文在 Pile 数据集的 100B-token 子集上训练了 160M、410M、1B 激活参数量的 Dense、MoE 和 MoLE 模型。对于 MoE 和 MoLE 模型,控制两者的训练阶段参数量相等。由于实验中以及近期 OLMoE 的结果都发现共享专家会降低 MoE 的性能,我们对 MoE 只采用了路由专家。MoLE 的专家大小与 Dense 的 FFN 保持一致,而 MoE 由于需要激活两个专家,其专家大小为 dense FFN 的一半,但专家数量是 MoLE 的两倍。



实验结果表明 MoLE 在相同训练参数量和推理激活参数量(即显存使用量)下,具有与 MoE 相当的性能,相比 Dense 有显著提升。与专家卸载的 MoE 相比,MoLE 减少了千倍以上的传输开销。



在 V100 上进行的评测结果表明,在显存用量一定的前提下,MoLE 的推理延迟与 Dense 基本一致,显著优于专家卸载的 MoE。在批量解码场景下,随着 batch size 的增加,MoE 的推理延迟迅速上升,而 MoLE 与 Dense 模型的延迟则基本保持稳定,进一步展现了 MoLE 在高吞吐量推理任务中的优势。





此外,消融实验表明,MoLE 的训练确实不需要辅助损失。

在专家数量提升时,模型性能也会提升



然而,如果仅增大专家的隐层维度,由于查找表的大小保持不变,当专家规模增大到一定程度时,推理性能将受限于查找表的固定大小,最终达到饱和。



作者通过将一个 MoE 模型逐步修改为 MoLE 模型,系统性地探索了 MoLE 各组成部分对性能的影响。实验结果表明,使用浅层的 embedding token 作为专家输入确实会削弱模型的表达能力,这是由于输入中缺乏丰富的上下文信息所致。然而,激活所有专家有效弥补了这一损失,使得 MoLE 最终能够达到与 MoE 相当的性能水平。



需要注意的是,路由专家的输入不包含上下文信息,并不意味着专家无法影响模型对上下文的处理。实际上,专家可以通过改变其输出,从而间接影响后续注意力层的输入,实现对上下文的建模。此外,共享专家和路由仍然接收包含上下文信息的输入,进一步保障了模型对上下文理解能力的保留。

最后,作者发现查找表中仍然存在较大程度的冗余。即使将查找表压缩至 3-bit 精度(例如使用 NF3 格式),模型性能依然能够基本保持不变。这表明查找表在存储开销上仍具有进一步压缩和优化的潜力。



总结

综上,本文提出了 MoLE,一种面向端侧部署优化的新型 MoE 架构。通过将专家输入改为浅层的 embedding token,并采用查找表替代传统的矩阵运算,MoLE 有效解决了传统 MoE 在推理阶段面临的显存开销大、传输延迟高的问题。实验结果表明,MoLE 在保持与 MoE 相当性能的同时,大幅降低了推理延迟,尤其在批量解码场景中展现出显著优势。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
百度网盘鸿蒙系统PC版首发 比Windows版好用多了

百度网盘鸿蒙系统PC版首发 比Windows版好用多了

快科技
2025-05-20 15:04:34
小米SU7,又出事了!专家分析:还是造车经验不足

小米SU7,又出事了!专家分析:还是造车经验不足

FM96.2广州新闻电台
2025-05-18 10:48:24
湖人豪赌 21 岁玻璃塔!27+5 妖星空降撕裂之城,詹皇冠军倒计时

湖人豪赌 21 岁玻璃塔!27+5 妖星空降撕裂之城,詹皇冠军倒计时

古今er
2025-05-20 14:28:34
爷爷把5套拆迁房全给了叔叔,我爸没闹,爷爷70大寿时众人愣住了

爷爷把5套拆迁房全给了叔叔,我爸没闹,爷爷70大寿时众人愣住了

七分瘦三分肥
2025-05-12 13:43:25
印媒:中国军工技术太烂了!只能给六代机塞3个发动机

印媒:中国军工技术太烂了!只能给六代机塞3个发动机

头条爆料007
2025-05-19 11:24:55
四川大妈超市摔坏水果被索赔1.8万,微笑转账,老板:有问题快拦住她

四川大妈超市摔坏水果被索赔1.8万,微笑转账,老板:有问题快拦住她

无名讲堂
2025-05-16 18:29:27
印度停战并非被巴军打服!只因中国宣布了一件事!

印度停战并非被巴军打服!只因中国宣布了一件事!

阿凫爱吐槽
2025-05-17 15:46:50
男星王喜遭男友人迷奸:喝饮料后昏迷,醒后全裸还沾满了排泄物

男星王喜遭男友人迷奸:喝饮料后昏迷,醒后全裸还沾满了排泄物

七阿姨爱八卦
2025-05-14 17:18:55
党政机关、国有企事业单位不应该再聘用已退休人员

党政机关、国有企事业单位不应该再聘用已退休人员

老舒说事
2025-04-13 22:31:03
俄著名学者:普京重大失误已无法挽回

俄著名学者:普京重大失误已无法挽回

雪中风车
2025-05-14 21:23:03
中国人耗时2年确认,在太空发现全新生命物种,适应能力极其强悍

中国人耗时2年确认,在太空发现全新生命物种,适应能力极其强悍

忠诚TALK
2025-05-20 17:02:01
女博主称急救心梗病人要十指放血,被指出乱科普后怒斥医生激化矛盾,是小孩子吵架

女博主称急救心梗病人要十指放血,被指出乱科普后怒斥医生激化矛盾,是小孩子吵架

可达鸭面面观
2025-05-20 16:09:24
打脸了!葛斯齐:车已经被拍卖再找人家要钱,是不认可法院判决吗

打脸了!葛斯齐:车已经被拍卖再找人家要钱,是不认可法院判决吗

小娱乐悠悠
2025-05-20 10:15:52
辛纳谈及遭ATP同行冷落,阿卡回应:我确实三个月没理他

辛纳谈及遭ATP同行冷落,阿卡回应:我确实三个月没理他

网球之家
2025-05-20 12:36:14
5年期以上LPR下降10个基点 100万元房贷30年减少2万元

5年期以上LPR下降10个基点 100万元房贷30年减少2万元

财联社
2025-05-20 09:07:08
CCTV1今晚开播!36集盗墓大剧来袭,看完预告片我敢说:这剧必火

CCTV1今晚开播!36集盗墓大剧来袭,看完预告片我敢说:这剧必火

头号剧委会
2025-05-20 15:20:25
中国不挽留,美国也不收了,李嘉诚终于认了!

中国不挽留,美国也不收了,李嘉诚终于认了!

奇思妙想生活家
2025-04-24 23:46:51
提前锁教师编总量,200万教师过剩、无学生可教?铁饭碗被猛砸?

提前锁教师编总量,200万教师过剩、无学生可教?铁饭碗被猛砸?

新东方
2025-05-20 15:57:10
俄军最优秀狙击手被乌军击毙,曾获得俄罗斯十项荣誉勋章️

俄军最优秀狙击手被乌军击毙,曾获得俄罗斯十项荣誉勋章️

环球热点快评
2025-05-19 15:21:48
妻子嫌老公只打游戏不陪自己,玩社交软件发瑜伽裤低胸擦边,大哥你被戴帽子了

妻子嫌老公只打游戏不陪自己,玩社交软件发瑜伽裤低胸擦边,大哥你被戴帽子了

故姐
2025-05-20 06:04:09
2025-05-20 17:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
10503文章数 142316关注度
往期回顾 全部

科技要闻

微软Build大会剧透未来:13亿数字员工要来

头条要闻

特朗普再谈俄乌冲突:我们投入的资金数额"简直疯狂"

头条要闻

特朗普再谈俄乌冲突:我们投入的资金数额"简直疯狂"

体育要闻

等了120年的冠军,和一幅感人至深的TIFO

娱乐要闻

包文婧二胎生啦 晒出四人全家福

财经要闻

一年定期破1 跨城存款"特种兵"淡出江湖

汽车要闻

几千块提不走!最便宜的汽车奔腾小马真相在这里

态度原创

数码
教育
艺术
健康
公开课

数码要闻

AMD CPU占Mindfactory周销量91%!Intel Arrow Lake直接挂零

教育要闻

高考最后20多天如何冲刺?

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

唇疱疹和口腔溃疡是"同伙"吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
OSZAR »