LM“超级权重”删掉就会胡说八道001%参数定生死！苹果揭秘L

作者：米乐主编更新时间：2026-02-16 点击数：

　　改进大模型压缩技术▽○，想要部署在移动端等一些低预算▪◆△、资源受限等环境中▼▪，如果在保留超权重的同时○▲☆，但对于拥有数十亿参数的模型●■▷，让大模型告别「炼丹玄学」▲=…□▷。它会把输入信号放大成异常大的数值□=▪？

　　在模型压缩和简化过程中=★◆•●LM“超级权重”删掉就会胡说八，要避免碰到这些数量虽小☆•，却牵一发而动全身的「命门级」参数□▼◆，避免它们被显著修改（通过压缩）或被完全移除（剪枝）●★。

　　通过超级激活来定位超级权重★●□：利用检测向下投影输入和输出分布跨层中的尖峰来定位超级权重●-=☆▼。

　　图2-Ⅱ中表示超级激活通过跳跃连接传播★•▷◆，用蓝紫色线表示●•，它表示激活不是一次性消失◆▲…==，而是层层跳跃传播下去○□□◁•。

　　图2-Ⅲ中表示=•▷■△◇，在最终的输出logits（预测分布）里•☆○，超级激活会产生压制停用词（stopwords）的效果◇▼。

　　又或者使大模型的零样本学习准确率降低到「瞎猜」的水平▲○△▼，这意味着大模型的智能也几乎废掉了▼▲。

　　大模型庞大的体格（动辄数十亿甚至数千亿参数）◇▲□-▽▲，也可以实现更好的压缩比•-▪。对其他权重异常值进行裁剪▼▷，研究人员考虑的是一种最简单的量化形式——即非对称的就近取重量化（asymmetric round-to-nearest quantization）◇◁-▷▼◇：同样★▪=◆，提供了一把重要的钥匙★▲。构建更高效=•▪■、更稳健…☆◁△●◆、更可解释大模型的创新方法▷•▲，仍然意味着有数十万个单独权重□○•。即使它们的比例可以小到0◆▷•-▼□.01%-•，

　　而在图1右侧▪■◇，当超级权重参数被剪枝后●-▽，Llama-7B就开始胡言乱语★▼☆，生成的全是毫无意义的文本◁…☆。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布○■▼▪◁，仅代表该作者或机构观点▪□•=，不代表澎湃新闻的观点或立场★□▲=，澎湃新闻仅提供信息发布平台◆•。申请澎湃号请用电脑访问★◇●•★。

　　为了全面展示超级权重的影响-●■▷△◁，研究人员将研究范围扩大到更多大模型☆◇◆：OLMo（1B和7B版本）■◆、Mistral-7B以及Llama-2-7B▽=▽。

　　苹果研究人员发现▲△◇▪○▽，如果动了它们=■▽◆，就可能破坏LLM生成连贯文本的能力▽◁★…，比如让困惑度上升3个数量级△△△△▪，这样大模型就几乎「读不懂」语言了•▲▲○。

　　在图3中△●•☆，down_proj输入在层2中★▷★▪□，仅有一个大幅度的激活值（super activation）•▷▪◇★•，这是超级激活首次出现的地方◆•。

　　如上图1左侧显示◇★★=▷-，带有超级权重的原始Llama-7B▷…▪◁，能顺利接着生成合乎逻辑的内容■▼★。

　　图2-I中蓝紫色方框中展示了超级权重的触发★○▲…，它通常出现在较早层的down projection（降维投影）•□●。

　　研究人员发现◇□，移除超级权重会导致停用词概率增加2-5倍▼●，这在各种LLMs中都存在☆◇▽=。

　　研究人员发现◆◆☆•○•，只要以高精度保留超级激活•◁○▽▪，通过简单的就近取整（round-to-nearest）量化★…，也能将模型质量提升到与当前最先进方法相当的水平▪▪◇。

　　更为合理的做法▼□◆◇△◆，是让大模型「科学瘦身」•■●，比如缩小模型的规模和计算复杂度=●•○，从而降低内存与功耗▪☆•。

　　【新智元导读】苹果研究人员发现•▪，在大模型中•◆▼○◆，极少量的参数••◁，即便只有0-■.01%○▷=◇▪，仍可能包含数十万权重▷▲△○◆▼，他们将这一发现称为「超级权重」•▲。超级权重点透了大模型「命门」▪□◆，使大模型走出「炼丹玄学」○◁。

　　对于拥有数十亿参数的模型△●，极少量的参数△☆▷◁■，即便是只有0▲=◇◇☆.01%•■△，仍可能包含数十万权重△=。苹果研究人员将称这个单标量权重为超级权重（super weight）▪■=…。

　　比如◇▲○=…•，它们通常是在超级权重之后出现◇◇，而不受输入提示词的影响▽▪○△◆。无论后续放什么音乐★○，这些都将帮助我们解锁○△，那个噪音始终存在★△=▽▪◁。这好比扩音器的噪音通过音响的电路一路传到所有扬声器△■▷◆▷◇，并在随后的层中以一种恒定的幅度和位置持续存在☆•！

　　近日△●道001%参数定生死！苹果揭秘L，苹果研究人员在论文《大语言模型中的超级权重》（The Super Weight in Large Language Models）中○□▲••，将上述现象▷★●▽□□，称为「超级权重现象」--☆…。

　　这也使得强大的LLM应用▼▼□□-，在资源受限的硬件上部署和高质量运行▲•○○，成为可能▽▷。

　　在删掉极少量参数后…☆▼，大模型立刻变得胡言乱语起来○▽◆•，在零样本任务中只会瞎猜○◆△•…▷，原来的那股聪明劲儿全没了◆…▽●★。

　　其中影响量化质量的☆●=▷-，是一种重要的指标离群值（outliers）●▲▪■□△。研究人员将超级权重和超级激活统称为超级离群值▽-=■▽。

　　就像把大象塞进冰箱▼●▪■☆△，一旦某个超级权重参与计算●•▲◇▼●，就近取整量化◇▼，于是紧接着的层中就出现超级激活★•…=★。超级离群值…-▪•，在该项研究中□…▲•★，往往会面临巨大挑战★□◇★。为人们认识大模型…◁•，在实际应用中-▼▷。

　　超级权重★■，会诱发相应稀有且幅度巨大的激活离群值▲◁△◇◆，研究人员将之称为super activations（超级激活）•▼○◁。

　　为了促进公开研究▲▲☆☆=，研究人员还将一部分常见…•▲•、公开可用的LLM超级权重标记了出来▪-□▼▷，如下表2◆◆▼：

　　如果只是简单粗暴的等比压缩或简化☆▽，就好比削足适履△△△，只会导致模型质量显著下降…◁。

　　如图7•-…▼△，蓝线RTN显示□▼◆▲▽…，如果不处理超级权重▲•，随着量化块变大▪=△，模型性能急剧下降☆-●；紫线Ours表示▼•，如果恢复超级权重■▪，模型准确率下降更平缓◇☆…=-，即使大块量化也能维持较好性能□◁▽…▽•。

　　研究人员还通过图2…•▪=，展示了超级权重触发超级激活▷◁▼▽△◆，以及超级激活的传播机制•▲☆□。

　　但是★=■□，如果保留这些极少量参数=◇•，即使删掉成千上万其他参数◆•□▷□，大模型的智力依然在线▷•◇◁，几乎看不出有什么影响○▼○★。

　　研究人员对Llama-7B的分析显示=☆，AWQ将超级权重放大了12倍•▽，这印证了他们对超级权重重要性的判断▪■…。

　　即使超级权重数量最多的模型（例如Phi-3-mini-4k-instruct）也只包含六个●▲=。

　　如果拿一棵树比喻-•，剪掉树（大模型）的几千片叶子（冗余参数）不会伤筋动骨△▷•，但只要砍掉树干上的一个关键节点（核心参数）◇•▲-，整棵树可能就死掉了▼▷▽。

　　同样的▪▪▼，理解这些超级权重参数…•，如何在训练过程中获得如此「超级」的影响力•=▷▲○，也可以为未来的模型设计▷■★▲•、训练策略提供更有针对性的指导●★。

　　Mengxia Yu是圣母大学计算机专业博士生◆☆•☆▲，此前在北京大学获得计算语言学学士学位▽▼，本论文是她在苹果公司实习期间完成的◇☆▪○。

　　如表3所示▪•，在与FP16○▪-●◁▽、Naive W8A8◆□▽☆•、SmoothQuant三种模型量化方法的比较中▷…，就近取整量化虽然效果略次于SmoothQuant◁☆-，但优于Naive W8A8=▪▷☆•，尤其是在不需要校准数据的前提下□-，实用性更强▷△○▷●▽。

　　原标题○▪☆▲◆：《0△●●.01%参数定生死△●▪●！苹果揭秘LLM「超级权重」◇▪▲●，删掉就会胡说八道》

　　这说明▼▽△=，只要针对单个超级权重进行特殊处理◆◆□-wwhogesoftcom 授权用户：h，就能显著提高量化的稳定性和可扩展性▲▼▪-▲…。

　　从另一个角度看◁•，在更广泛的模型架构和训练范式中…■◇☆▪◇，展开对超级权重的研究▪▽☆▼，也有助于揭示它们的角色和形成机制★△◁□。

　　毫无疑问▲•□▽■□，进一步探索超级权重与超级激活的起源及其精确机制■▽★•▲，将对LLM的运行动态●…▽-▲，带来更深入的洞见▼▷…○◁●。

　　图4表示◁▲-◁-，一旦在第2层被触发…☆，超级激活会在随后的所有层中以相同的幅度=☆○☆◇△、相同的位置持续存在•-☆▲◇，而不受输入的影响◆•…■◇。如果把超级权重剪掉••●●★，超级激活的强度会下降75%○◆○…。

　　研究人员认为□■，与需要处理数十万离群权重的方法相比…●★，这无疑是一种更友好的硬件方案◇=□■▼。

加入收藏

Tag：音响的信号输入方式

上一篇：比与智能体验的完美结合音箱品牌推荐：高性价

下一篇：没有了

返回列表

米乐_m6米乐在线注册

LM“超级权重”删掉就会胡说八道001%参数定生死！苹果揭秘L

随便看看

产品推荐

音乐空间便携音响

音乐空间环绕音频系统

音乐空间智能音响

悦动静音音响

悦动户外音响