literature_review

大模型轻量化文献综述

调研日期: 2026-05-03
研究方向: 大模型轻量化 (Large Language Model Compression)

执行摘要

大模型轻量化是当前AI领域的关键研究方向，主要解决LLM在资源受限环境下的部署问题。当前主流技术路线包括：知识蒸馏、结构化剪枝、量化、参数高效微调和稀疏激活（MoE）。最新研究表明，这些技术的组合顺序对最终效果有显著影响，量化提供了最佳的整体权衡，而剪枝在特定场景下有效。

文献分类与分析

1. 压缩技术综合研究

论文	发表时间	核心方法	关键结果	与我们的相关性
A Systematic Study of Compression Ordering for LLMs	2025	研究蒸馏、剪枝、量化的组合顺序	量化提供最大压缩率，剪枝引入中等质量下降	高 - 为组合策略提供实证指导
A Unified Evaluation of LLM Compression	2026	统一评估剪枝、量化、蒸馏	量化提供最佳权衡，剪枝仅在特定场景有效	高 - 帮助选择主导技术路线
Contemporary Model Compression on LLMs Inference	2024	现代压缩技术综述	总结当前主流方法及其适用场景	中 - 提供技术全景
Model Compression and Efficient Inference for LLMs	2024	量化、剪枝、蒸馏、紧凑架构分类	系统性分类压缩算法	中 - 分类框架参考
Optimizing LLMs for Resource-Constrained Environments	2025	资源受限环境下的LLM优化综述	全面概述压缩技术	中 - 部署场景指导

关键发现:

量化是当前最有效的单一技术，提供最佳压缩率/性能权衡
组合顺序很重要：先量化后剪枝优于先剪枝后量化
剪枝的收益在高压缩率下才显现，低压缩率时不如量化

2. 知识蒸馏方向

论文	发表时间	核心方法	关键结果	与我们的相关性
Compact Language Models via Pruning and KD	2024	剪枝+蒸馏联合优化	避免从头训练每个模型变体	高 - 减少训练成本
A Survey on KD of LLMs	2024	LLM知识蒸馏综述	从GPT-4等专有模型迁移能力	中 - 蒸馏方法论
LLM Compression via Low-Rank Feature Distillation	2024	低秩特征蒸馏	减少昂贵的持续预训练步骤	高 - 降低蒸馏成本
Demystifying Low-Rank KD in LLMs	2026	低秩知识蒸馏机制分析	揭示低秩蒸馏的工作原理	中 - 理论理解
Exploring the Limits of Model Compression in LLMs	2025	通过KD压缩LLM的极限	在QA任务上保持强性能	中 - 压缩边界探索

关键发现:

低秩特征蒸馏可以显著减少持续预训练的token数量（从数十亿降低）
蒸馏+剪枝联合优化比单独应用更高效
知识蒸馏在保持推理能力方面表现优异

3. 量化技术

论文	发表时间	核心方法	关键结果	与我们的相关性
Data-free Weight Compress and Denoise for LLMs	2024	无数据权重压缩与去噪	利用权重矩阵的低秩特性	高 - 无需校准数据
Bayesian DNN Compression through Sparse Quantized Sub-distributions	2025	贝叶斯稀疏量化	剪枝+量化联合优化	中 - 理论框架
Integrating Pruning with Quantization	2025	剪枝与量化集成	联合应用优于单独使用	高 - 组合策略

关键发现:

无数据量化方法降低了部署门槛
量化与剪枝的联合优化可以进一步提升压缩率
低秩特性是量化成功的关键

4. 参数高效微调 (PEFT)

论文	发表时间	核心方法	关键结果	与我们的相关性
Parameter Efficient Quantization-Aware Fine-Tuning	2024	量化感知的PEFT	结合量化与LoRA	高 - 微调+压缩一体化
Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth	2025	自适应秩和位宽	动态调整LoRA秩和量化位宽	高 - 自适应策略
Accurate and Efficient Fine-Tuning of Quantized LLMs	2024	量化LLM的精确微调	通过最优平衡提升效果	中 - 微调精度
Slimming Down LLMs Without Losing Their Minds	2025	LoRA和QLoRA的改进	保持或提升模型性能	中 - PEFT改进

关键发现:

QLoRA将内存需求降低10-20倍，同时保持90-95%的质量
自适应秩和位宽策略优于固定配置
PEFT与量化的结合是资源受限场景的最佳选择

5. 稀疏激活与混合专家 (MoE)

论文	发表时间	核心方法	关键结果	与我们的相关性
Mixture of Grouped Experts for Efficient Sparsity	2025	分组专家混合	更高效的稀疏性	高 - MoE改进
Mixture of Neuron Experts	2025	神经元级专家混合	仅激活50%参数即可匹配性能	高 - 更细粒度的稀疏
Converting MoE from Dense to Accelerate LLM Inference	2026	密集模型转MoE	避免资源密集的持续预训练	高 - 转换策略
Efficient MoE Inference on Consumer GPU	2025	消费级GPU上的MoE推理	大小专家混合策略	中 - 部署优化
Faster MoE LLM Inference for Extremely Large Models	2025	超大模型的快速MoE推理	减少激活专家数量	中 - 推理加速

关键发现:

神经元级MoE比传统层级MoE更高效（50%激活率）
密集模型可以转换为MoE而无需大规模重训练
MoE在超大模型上的效率优势更明显

6. 边缘设备部署

论文	发表时间	核心方法	关键结果	与我们的相关性
Fine-Tuning and Deploying LLMs Over Edges	2024	边缘LLM微调与部署	多模态基础模型的边缘部署	高 - 边缘场景
Model-Distributed Inference for LLMs at the Edge	2025	模型分布式推理	跨多设备分布模型	高 - 协同推理
On-Device Language Models	2024	设备端语言模型	减少延迟和隐私保护	中 - 设备端优化
Generic Inference Engine for Fast LLM Deployment on Mobile	2025	移动设备通用推理引擎	快速移动部署	中 - 移动优化
Compact LLM Deployment and World Model Assisted Offloading	2026	紧凑LLM部署与卸载	世界模型辅助的推理卸载	高 - 边缘-云协同

关键发现:

协同边缘计算可以部署超出单设备内存容量的LLM
模型分布式推理是边缘部署的关键技术
边缘-云混合架构平衡了延迟和计算能力

7. 工具与框架

论文	发表时间	核心方法	关键结果	与我们的相关性
AngelSlim: Comprehensive Toolkit for Large Model Compression	2026	腾讯混元团队的压缩工具包	整合前沿算法的通用工具	高 - 可直接使用

研究空白与机会

1. 组合策略的自动化优化 ⭐⭐⭐

现状: 当前研究主要关注单一技术或固定组合顺序
空白: 缺乏针对特定模型和任务自动搜索最优压缩策略的方法
机会: 开发自适应压缩流程，根据模型特性和资源约束自动选择技术组合

2. 无数据/少数据压缩 ⭐⭐⭐

现状: 大多数方法需要大量校准数据
空白: 在完全无数据或极少数据场景下的压缩效果不佳
机会: 利用模型内在结构（低秩、稀疏性）进行无监督压缩

3. 压缩感知训练 ⭐⭐

现状: 压缩通常是训练后的独立步骤
空白: 训练时未考虑后续压缩需求
机会: 在预训练阶段就引入压缩友好的结构（如低秩约束、稀疏激活）

4. 动态压缩 ⭐⭐⭐

现状: 压缩率通常是静态的
空白: 无法根据输入复杂度动态调整压缩程度
机会: 开发输入自适应的动态压缩机制（简单输入用更激进的压缩）

5. 跨模态压缩迁移 ⭐

现状: 大多数研究聚焦于纯文本LLM
空白: 多模态模型（VLM）的压缩研究较少
机会: 将文本LLM的压缩技术迁移到视觉-语言模型

6. 压缩对推理能力的影响 ⭐⭐

现状: 评估主要关注困惑度和准确率
空白: 压缩对复杂推理（如数学、代码）的影响研究不足
机会: 系统评估压缩技术对不同能力维度的影响

7. 边缘-云协同的智能调度 ⭐⭐⭐

现状: 边缘部署主要关注模型压缩
空白: 缺乏智能的边缘-云任务分配策略
机会: 开发基于任务复杂度和网络状况的动态卸载机制

技术趋势总结

主导技术路线

量化 - 当前最成熟、效果最好的单一技术
PEFT (LoRA/QLoRA) - 微调场景的标准选择
MoE稀疏激活 - 超大模型的未来方向

新兴方向

神经元级稀疏 - 比层级稀疏更细粒度
密集转MoE - 无需重训练的架构转换
自适应压缩 - 根据输入/资源动态调整

实践建议

资源充足场景: 量化 + 蒸馏
资源受限场景: QLoRA + 量化
边缘部署: 量化 + 模型分布式推理
超大模型: MoE + 量化

下一步行动

基于文献分析，建议重点探索以下方向：

自适应组合压缩 - 自动搜索最优技术组合和顺序
无数据压缩 - 利用模型内在结构的无监督方法
动态压缩 - 输入自适应的压缩机制
边缘-云协同 - 智能任务分配与卸载

大模型轻量化文献综述

执行摘要

文献分类与分析

1. 压缩技术综合研究

2. 知识蒸馏方向

3. 量化技术

4. 参数高效微调 (PEFT)

5. 稀疏激活与混合专家 (MoE)

6. 边缘设备部署

7. 工具与框架

研究空白与机会

1. 组合策略的自动化优化 ⭐⭐⭐

2. 无数据/少数据压缩 ⭐⭐⭐

3. 压缩感知训练 ⭐⭐

4. 动态压缩 ⭐⭐⭐

5. 跨模态压缩迁移 ⭐

6. 压缩对推理能力的影响 ⭐⭐

7. 边缘-云协同的智能调度 ⭐⭐⭐

技术趋势总结

主导技术路线

新兴方向

实践建议

下一步行动

Sources

压缩技术综合

知识蒸馏

量化

参数高效微调

混合专家

边缘部署

工具与框架