literature_review
大模型轻量化文献综述
调研日期: 2026-05-03
研究方向: 大模型轻量化 (Large Language Model Compression)
执行摘要
大模型轻量化是当前AI领域的关键研究方向,主要解决LLM在资源受限环境下的部署问题。当前主流技术路线包括:知识蒸馏、结构化剪枝、量化、参数高效微调和稀疏激活(MoE)。最新研究表明,这些技术的组合顺序对最终效果有显著影响,量化提供了最佳的整体权衡,而剪枝在特定场景下有效。
文献分类与分析
1. 压缩技术综合研究
| 论文 | 发表时间 | 核心方法 | 关键结果 | 与我们的相关性 |
|---|---|---|---|---|
| A Systematic Study of Compression Ordering for LLMs | 2025 | 研究蒸馏、剪枝、量化的组合顺序 | 量化提供最大压缩率,剪枝引入中等质量下降 | 高 - 为组合策略提供实证指导 |
| A Unified Evaluation of LLM Compression | 2026 | 统一评估剪枝、量化、蒸馏 | 量化提供最佳权衡,剪枝仅在特定场景有效 | 高 - 帮助选择主导技术路线 |
| Contemporary Model Compression on LLMs Inference | 2024 | 现代压缩技术综述 | 总结当前主流方法及其适用场景 | 中 - 提供技术全景 |
| Model Compression and Efficient Inference for LLMs | 2024 | 量化、剪枝、蒸馏、紧凑架构分类 | 系统性分类压缩算法 | 中 - 分类框架参考 |
| Optimizing LLMs for Resource-Constrained Environments | 2025 | 资源受限环境下的LLM优化综述 | 全面概述压缩技术 | 中 - 部署场景指导 |
关键发现:
- 量化是当前最有效的单一技术,提供最佳压缩率/性能权衡
- 组合顺序很重要:先量化后剪枝优于先剪枝后量化
- 剪枝的收益在高压缩率下才显现,低压缩率时不如量化
2. 知识蒸馏方向
| 论文 | 发表时间 | 核心方法 | 关键结果 | 与我们的相关性 |
|---|---|---|---|---|
| Compact Language Models via Pruning and KD | 2024 | 剪枝+蒸馏联合优化 | 避免从头训练每个模型变体 | 高 - 减少训练成本 |
| A Survey on KD of LLMs | 2024 | LLM知识蒸馏综述 | 从GPT-4等专有模型迁移能力 | 中 - 蒸馏方法论 |
| LLM Compression via Low-Rank Feature Distillation | 2024 | 低秩特征蒸馏 | 减少昂贵的持续预训练步骤 | 高 - 降低蒸馏成本 |
| Demystifying Low-Rank KD in LLMs | 2026 | 低秩知识蒸馏机制分析 | 揭示低秩蒸馏的工作原理 | 中 - 理论理解 |
| Exploring the Limits of Model Compression in LLMs | 2025 | 通过KD压缩LLM的极限 | 在QA任务上保持强性能 | 中 - 压缩边界探索 |
关键发现:
- 低秩特征蒸馏可以显著减少持续预训练的token数量(从数十亿降低)
- 蒸馏+剪枝联合优化比单独应用更高效
- 知识蒸馏在保持推理能力方面表现优异
3. 量化技术
| 论文 | 发表时间 | 核心方法 | 关键结果 | 与我们的相关性 |
|---|---|---|---|---|
| Data-free Weight Compress and Denoise for LLMs | 2024 | 无数据权重压缩与去噪 | 利用权重矩阵的低秩特性 | 高 - 无需校准数据 |
| Bayesian DNN Compression through Sparse Quantized Sub-distributions | 2025 | 贝叶斯稀疏量化 | 剪枝+量化联合优化 | 中 - 理论框架 |
| Integrating Pruning with Quantization | 2025 | 剪枝与量化集成 | 联合应用优于单独使用 | 高 - 组合策略 |
关键发现:
- 无数据量化方法降低了部署门槛
- 量化与剪枝的联合优化可以进一步提升压缩率
- 低秩特性是量化成功的关键
4. 参数高效微调 (PEFT)
| 论文 | 发表时间 | 核心方法 | 关键结果 | 与我们的相关性 |
|---|---|---|---|---|
| Parameter Efficient Quantization-Aware Fine-Tuning | 2024 | 量化感知的PEFT | 结合量化与LoRA | 高 - 微调+压缩一体化 |
| Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth | 2025 | 自适应秩和位宽 | 动态调整LoRA秩和量化位宽 | 高 - 自适应策略 |
| Accurate and Efficient Fine-Tuning of Quantized LLMs | 2024 | 量化LLM的精确微调 | 通过最优平衡提升效果 | 中 - 微调精度 |
| Slimming Down LLMs Without Losing Their Minds | 2025 | LoRA和QLoRA的改进 | 保持或提升模型性能 | 中 - PEFT改进 |
关键发现:
- QLoRA将内存需求降低10-20倍,同时保持90-95%的质量
- 自适应秩和位宽策略优于固定配置
- PEFT与量化的结合是资源受限场景的最佳选择
5. 稀疏激活与混合专家 (MoE)
| 论文 | 发表时间 | 核心方法 | 关键结果 | 与我们的相关性 |
|---|---|---|---|---|
| Mixture of Grouped Experts for Efficient Sparsity | 2025 | 分组专家混合 | 更高效的稀疏性 | 高 - MoE改进 |
| Mixture of Neuron Experts | 2025 | 神经元级专家混合 | 仅激活50%参数即可匹配性能 | 高 - 更细粒度的稀疏 |
| Converting MoE from Dense to Accelerate LLM Inference | 2026 | 密集模型转MoE | 避免资源密集的持续预训练 | 高 - 转换策略 |
| Efficient MoE Inference on Consumer GPU | 2025 | 消费级GPU上的MoE推理 | 大小专家混合策略 | 中 - 部署优化 |
| Faster MoE LLM Inference for Extremely Large Models | 2025 | 超大模型的快速MoE推理 | 减少激活专家数量 | 中 - 推理加速 |
关键发现:
- 神经元级MoE比传统层级MoE更高效(50%激活率)
- 密集模型可以转换为MoE而无需大规模重训练
- MoE在超大模型上的效率优势更明显
6. 边缘设备部署
| 论文 | 发表时间 | 核心方法 | 关键结果 | 与我们的相关性 |
|---|---|---|---|---|
| Fine-Tuning and Deploying LLMs Over Edges | 2024 | 边缘LLM微调与部署 | 多模态基础模型的边缘部署 | 高 - 边缘场景 |
| Model-Distributed Inference for LLMs at the Edge | 2025 | 模型分布式推理 | 跨多设备分布模型 | 高 - 协同推理 |
| On-Device Language Models | 2024 | 设备端语言模型 | 减少延迟和隐私保护 | 中 - 设备端优化 |
| Generic Inference Engine for Fast LLM Deployment on Mobile | 2025 | 移动设备通用推理引擎 | 快速移动部署 | 中 - 移动优化 |
| Compact LLM Deployment and World Model Assisted Offloading | 2026 | 紧凑LLM部署与卸载 | 世界模型辅助的推理卸载 | 高 - 边缘-云协同 |
关键发现:
- 协同边缘计算可以部署超出单设备内存容量的LLM
- 模型分布式推理是边缘部署的关键技术
- 边缘-云混合架构平衡了延迟和计算能力
7. 工具与框架
| 论文 | 发表时间 | 核心方法 | 关键结果 | 与我们的相关性 |
|---|---|---|---|---|
| AngelSlim: Comprehensive Toolkit for Large Model Compression | 2026 | 腾讯混元团队的压缩工具包 | 整合前沿算法的通用工具 | 高 - 可直接使用 |
研究空白与机会
1. 组合策略的自动化优化 ⭐⭐⭐
- 现状: 当前研究主要关注单一技术或固定组合顺序
- 空白: 缺乏针对特定模型和任务自动搜索最优压缩策略的方法
- 机会: 开发自适应压缩流程,根据模型特性和资源约束自动选择技术组合
2. 无数据/少数据压缩 ⭐⭐⭐
- 现状: 大多数方法需要大量校准数据
- 空白: 在完全无数据或极少数据场景下的压缩效果不佳
- 机会: 利用模型内在结构(低秩、稀疏性)进行无监督压缩
3. 压缩感知训练 ⭐⭐
- 现状: 压缩通常是训练后的独立步骤
- 空白: 训练时未考虑后续压缩需求
- 机会: 在预训练阶段就引入压缩友好的结构(如低秩约束、稀疏激活)
4. 动态压缩 ⭐⭐⭐
- 现状: 压缩率通常是静态的
- 空白: 无法根据输入复杂度动态调整压缩程度
- 机会: 开发输入自适应的动态压缩机制(简单输入用更激进的压缩)
5. 跨模态压缩迁移 ⭐
- 现状: 大多数研究聚焦于纯文本LLM
- 空白: 多模态模型(VLM)的压缩研究较少
- 机会: 将文本LLM的压缩技术迁移到视觉-语言模型
6. 压缩对推理能力的影响 ⭐⭐
- 现状: 评估主要关注困惑度和准确率
- 空白: 压缩对复杂推理(如数学、代码)的影响研究不足
- 机会: 系统评估压缩技术对不同能力维度的影响
7. 边缘-云协同的智能调度 ⭐⭐⭐
- 现状: 边缘部署主要关注模型压缩
- 空白: 缺乏智能的边缘-云任务分配策略
- 机会: 开发基于任务复杂度和网络状况的动态卸载机制
技术趋势总结
主导技术路线
- 量化 - 当前最成熟、效果最好的单一技术
- PEFT (LoRA/QLoRA) - 微调场景的标准选择
- MoE稀疏激活 - 超大模型的未来方向
新兴方向
- 神经元级稀疏 - 比层级稀疏更细粒度
- 密集转MoE - 无需重训练的架构转换
- 自适应压缩 - 根据输入/资源动态调整
实践建议
- 资源充足场景: 量化 + 蒸馏
- 资源受限场景: QLoRA + 量化
- 边缘部署: 量化 + 模型分布式推理
- 超大模型: MoE + 量化
下一步行动
基于文献分析,建议重点探索以下方向:
- 自适应组合压缩 - 自动搜索最优技术组合和顺序
- 无数据压缩 - 利用模型内在结构的无监督方法
- 动态压缩 - 输入自适应的压缩机制
- 边缘-云协同 - 智能任务分配与卸载
Sources
压缩技术综合
- A Systematic Study of Compression Ordering for Large Language Models
- A Unified Evaluation of Large Language Model Compression via Pruning, Quantization, and Distillation
- Contemporary Model Compression on Large Language Models Inference
- Model Compression and Efficient Inference for Large Language Models
- Optimizing LLMs for Resource-Constrained Environments
- A Survey on Transformer Compression
知识蒸馏
- Compact Language Models via Pruning and Knowledge Distillation
- A Survey on Knowledge Distillation of Large Language Models
- Large Language Models Compression via Low-Rank Feature Distillation
- Demystifying Low-Rank Knowledge Distillation in Large Language Models
- Exploring the Limits of Model Compression in LLMs
- On the Compression of Language Models for Code
量化
- Data-free Weight Compress and Denoise for Large Language Models
- Bayesian DNN Compression through Sparse Quantized Sub-distributions
- Integrating Pruning with Quantization for Efficient Deep Neural Networks Compression
参数高效微调
- Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models
- Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth
- Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance
- Slimming Down LLMs Without Losing Their Minds
- Efficient and Effective Low Rank Representation Fine-tuning
- Efficient Fine-tuning of Language Models via Residual Learning
混合专家
- Mixture of Grouped Experts for Efficient Sparsity
- Mixture of Neuron Experts
- Converting Mixture-of-Experts from Dense to Accelerate LLM Inference
- Efficient Mixture-of-Experts Inference on Consumer GPU with Mixture of Big Little Experts
- Faster MoE LLM Inference for Extremely Large Models
- Rethinking Training of Mixture-of-Experts Language Models
- End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts
- Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems
- Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion
边缘部署
- Fine-Tuning and Deploying Large Language Models Over Edges
- Model-Distributed Inference for Large Language Models at the Edge
- On-Device Language Models
- A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices
- Compact LLM Deployment and World Model Assisted Offloading in Mobile Edge Computing
- Efficient LLM Inference via Collaborative Edge Computing
- Characterizing Reasoning LLM Deployment on Edge GPUs
- Vision-Language Models for Edge Networks