您现在的位置是:法慧鹏赋网 > 探索
比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
法慧鹏赋网2025-03-14 03:36:11【探索】7人已围观
简介本文探究了 Monarch Mixer (M2) ,这是一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的硬件功能。从 BERT、GPT 以及 Flan-T5 等语言模子到
本文探究了 Monarch Mixer (M2) ,更好更强这是更好更强一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的更好更强硬件功能 。
从 BERT、更好更强GPT 以及 Flan-T5 等语言模子到 SAM 以及 Stable Diffusion 等图像模子,更好更强Transformer 正以所向无敌之势席卷这个天下 ,更好更强但人们也不禁会问:Transformer 是更好更强仅有抉择吗?
斯坦福大学以及纽约州立大学布法罗分校的一个钻研团队不光为这一下场给出了招供谜底,而且还提出了一种新的更好更强替换技术 :Monarch Mixer 。克日,更好更强该团队在 arXiv 宣告了相关论文以及一些魔难点模子及磨炼代码 。更好更强顺带一提 ,更好更强该论文已经落选 NeurIPS 2023 并取患上 Oral Presentation 资历。更好更强

论文地址:https://arxiv.org/abs/2310.12109
代码地址:https://github.com/HazyResearch/m2
该措施去掉了 Transformer 中高老本的更好更强留意力以及 MLP,代之以富裕展现力的更好更强 Monarch 矩阵 ,使之在语言以及图像试验中以更低的更好更强老本取患了更优的展现 。
这并非斯坦福大学第一次提出 Transformer 的替换技术。往年六月该校的另一个团队还曾经提出过一种名为 Backpack 的技术,参阅机械之心文章《斯坦福磨炼 Transformer 替换模子:1.7 亿参数,能除了偏、可控可批注性强》 。尽管 ,这些技术要取患上真正的乐成,还需要钻研社区的进一步魔难并在运用开拓者手中酿成着实好用的产物。
下面咱们看看这篇论文中对于 Monarch Mixer 的介绍以及一些试验服从。
论文介绍
在做作语言处置以及合计机视觉规模,机械学习模子已经能处置更长的序列以及更高维度的表征 ,从而反对于更长的高下文以及更高的品质 。可是,现有架构的光阴以及空间重大性在序列长度以及 / 或者模子维度上呈二次削减方式,这会限度高下文长度并提升扩展老本 。举个例子 ,Transformer 中的留意力以及 MLP 会随序列长度以及模子维度呈二次扩展方式 。
针对于这一下场 ,斯坦福大学以及纽约州立大学布法罗分校的这个钻研团队宣称找到了一种高功能的架构,其庞漂亮随序列长度以及模子维度的削减是次二次的(sub-quadratic) 。
他们的钻研灵感来自 MLP-mixer 以及 ConvMixer;这两项钻研审核到:良多机械学习模子的运作方式都是沿序列以及模子维度轴对于信息妨碍混合 ,而且它们每一每一对于两个轴运用了单个算子 。
追寻展现力强 、次二次且硬件功能高的混合算子的难度很大。举个例子,MLP-mixer 中的 MLP 以及 ConvMixer 中的卷积都颇具展现力 ,但它们都市随输入维度二次扩展。近期有一些钻研提出了一些次二次的序列混合措施 ,这些措施运用了较长的卷积或者形态空间模子,而且它们都市用到 FFT,但这些模子的 FLOP 运用率很低而且在模子维度方面依然是二次扩展 。与此同时,不损品质的浓密密集 MLP 层方面也有一些颇具后劲的妨碍 ,但由于硬件运用率较低 ,某些模籽实际上可能还比密集模子更慢 。
基于这些灵感,这个钻研团队提出了 Monarch Mixer (M2),其运用到了一类富裕展现力的次二次妄想化矩阵 :Monarch 矩阵 。
Monarch 矩阵是一类泛化了快捷傅立叶变更(FFT)的妄想化矩阵 ,而且钻研表明其涵盖了规模普遍的线性变更,搜罗哈达玛变更、托普利兹矩阵 、AFDF 矩阵以及卷积 。它们可经由火块对于角矩阵的积妨碍参数化 ,这些参数被称为 Monarch 因子,与部署交织 。
它们的合计是次二次扩展的:假如将因子的数目设为 p ,则当输入长度为 N 时 ,合计庞漂亮为
很赞哦!(5425)
相关文章
- 国米大胜重返榜首,AC米兰客场落败
- 76人新闻:哈登判断留队,托哈下家曝光,悍将各奔前途
- 原创 高薪截胡曼联!金玟哉和拜仁达成协议!金玟哉:为欧冠冠军而战!
- 泰山中超夏窗首签或锁定自由身大鱼!曾效力德甲,可替代孙准浩没人告诉我“容嬷嬷”年轻时这么好看!44岁仍不婚,齐欢:挺好的
- 10队争4个淘汰赛名额!欧冠乱了,大巴黎赢球晋级,2豪门近乎出局
- 再见鹈鹕!锡安5换4生意曝光,2亿巨星或者加盟辅助莺歌争冠
- 标晚:发售托纳利后,米兰将奇克视作头等目的
- NBA三新闻!保罗即将重返快船,哈登不断辅助恩比德,利拉德摊牌
- CBA齐鲁德比,又来了!济南时报2023-12-11 07:51济南时报2023-12-11 07:51
- 谣言!哄抬物价,76人小伎俩被看透,你们的话没有人相信蔡徐坤“一夜情”风波后续,女方长得白白净净,露面拿出打胎档案
热门文章
站长推荐
友情链接
- 钟楚红TikTok
- 王思懿主页
- 何晟铭微博
- 杨钧钧主页
- 阮经天TikTok
- 诡秘之主Weibo
- 吴京抖音
- 刘诗诗博客
- 叶童官网
- 欢乐颂微博
- 陈伟霆Twitter
- 江若琳Facebook
- 柯佳嬿Weibo
- 尊龙主页
- 尔冬升Twitter
- 辰亦儒博客
- 贾静雯主页
- 张涵予Instagram
- 胡杏儿抖音
- 尔冬升博客
- 热火终结四连败的三大收获:“热三疯”打懵奇才,希罗怒砍准三双
- 原创 湖人绝对核心:我们的大部分球员都是老将,我们知道该怎么打!
- 深秋已经至 明晨河南西部、西北部将迎初霜冻
- 往年化学反映与去年有何差距?克莱:每一年都很棒 赢球会处置所有
- 央视关注电子门锁倾向频发天气:抽查17.1%品质不同格
- 欧冠19分钟双响!哈兰德“吃人”庆祝,23岁37球比肩梅西“亚洲第一美女”李成敏绝非浪得虚名,其美貌让无数宅男驻足长看
- 原创 想打亚冠,申花只剩足协杯夺冠一条路
- 威海一轿车坠海3人遇难
- 托纳利赌球被禁赛10个月,在AC米兰犯的错,由纽卡斯尔来背锅赵露思因涉嫌不当言论被央视开除、账号被清黑、吴磊受牵连
- 第九批国家机关药品会集推销拟落选服从将于明天宣告