literature_review

大模型轻量化文献综述

调研日期: 2026-05-03
研究方向: 大模型轻量化 (Large Language Model Compression)

执行摘要

大模型轻量化是当前AI领域的关键研究方向,主要解决LLM在资源受限环境下的部署问题。当前主流技术路线包括:知识蒸馏结构化剪枝量化参数高效微调稀疏激活(MoE)。最新研究表明,这些技术的组合顺序对最终效果有显著影响,量化提供了最佳的整体权衡,而剪枝在特定场景下有效。

文献分类与分析

1. 压缩技术综合研究

论文 发表时间 核心方法 关键结果 与我们的相关性
A Systematic Study of Compression Ordering for LLMs 2025 研究蒸馏、剪枝、量化的组合顺序 量化提供最大压缩率,剪枝引入中等质量下降 - 为组合策略提供实证指导
A Unified Evaluation of LLM Compression 2026 统一评估剪枝、量化、蒸馏 量化提供最佳权衡,剪枝仅在特定场景有效 - 帮助选择主导技术路线
Contemporary Model Compression on LLMs Inference 2024 现代压缩技术综述 总结当前主流方法及其适用场景 - 提供技术全景
Model Compression and Efficient Inference for LLMs 2024 量化、剪枝、蒸馏、紧凑架构分类 系统性分类压缩算法 - 分类框架参考
Optimizing LLMs for Resource-Constrained Environments 2025 资源受限环境下的LLM优化综述 全面概述压缩技术 - 部署场景指导

关键发现:

2. 知识蒸馏方向

论文 发表时间 核心方法 关键结果 与我们的相关性
Compact Language Models via Pruning and KD 2024 剪枝+蒸馏联合优化 避免从头训练每个模型变体 - 减少训练成本
A Survey on KD of LLMs 2024 LLM知识蒸馏综述 从GPT-4等专有模型迁移能力 - 蒸馏方法论
LLM Compression via Low-Rank Feature Distillation 2024 低秩特征蒸馏 减少昂贵的持续预训练步骤 - 降低蒸馏成本
Demystifying Low-Rank KD in LLMs 2026 低秩知识蒸馏机制分析 揭示低秩蒸馏的工作原理 - 理论理解
Exploring the Limits of Model Compression in LLMs 2025 通过KD压缩LLM的极限 在QA任务上保持强性能 - 压缩边界探索

关键发现:

3. 量化技术

论文 发表时间 核心方法 关键结果 与我们的相关性
Data-free Weight Compress and Denoise for LLMs 2024 无数据权重压缩与去噪 利用权重矩阵的低秩特性 - 无需校准数据
Bayesian DNN Compression through Sparse Quantized Sub-distributions 2025 贝叶斯稀疏量化 剪枝+量化联合优化 - 理论框架
Integrating Pruning with Quantization 2025 剪枝与量化集成 联合应用优于单独使用 - 组合策略

关键发现:

4. 参数高效微调 (PEFT)

论文 发表时间 核心方法 关键结果 与我们的相关性
Parameter Efficient Quantization-Aware Fine-Tuning 2024 量化感知的PEFT 结合量化与LoRA - 微调+压缩一体化
Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth 2025 自适应秩和位宽 动态调整LoRA秩和量化位宽 - 自适应策略
Accurate and Efficient Fine-Tuning of Quantized LLMs 2024 量化LLM的精确微调 通过最优平衡提升效果 - 微调精度
Slimming Down LLMs Without Losing Their Minds 2025 LoRA和QLoRA的改进 保持或提升模型性能 - PEFT改进

关键发现:

5. 稀疏激活与混合专家 (MoE)

论文 发表时间 核心方法 关键结果 与我们的相关性
Mixture of Grouped Experts for Efficient Sparsity 2025 分组专家混合 更高效的稀疏性 - MoE改进
Mixture of Neuron Experts 2025 神经元级专家混合 仅激活50%参数即可匹配性能 - 更细粒度的稀疏
Converting MoE from Dense to Accelerate LLM Inference 2026 密集模型转MoE 避免资源密集的持续预训练 - 转换策略
Efficient MoE Inference on Consumer GPU 2025 消费级GPU上的MoE推理 大小专家混合策略 - 部署优化
Faster MoE LLM Inference for Extremely Large Models 2025 超大模型的快速MoE推理 减少激活专家数量 - 推理加速

关键发现:

6. 边缘设备部署

论文 发表时间 核心方法 关键结果 与我们的相关性
Fine-Tuning and Deploying LLMs Over Edges 2024 边缘LLM微调与部署 多模态基础模型的边缘部署 - 边缘场景
Model-Distributed Inference for LLMs at the Edge 2025 模型分布式推理 跨多设备分布模型 - 协同推理
On-Device Language Models 2024 设备端语言模型 减少延迟和隐私保护 - 设备端优化
Generic Inference Engine for Fast LLM Deployment on Mobile 2025 移动设备通用推理引擎 快速移动部署 - 移动优化
Compact LLM Deployment and World Model Assisted Offloading 2026 紧凑LLM部署与卸载 世界模型辅助的推理卸载 - 边缘-云协同

关键发现:

7. 工具与框架

论文 发表时间 核心方法 关键结果 与我们的相关性
AngelSlim: Comprehensive Toolkit for Large Model Compression 2026 腾讯混元团队的压缩工具包 整合前沿算法的通用工具 - 可直接使用

研究空白与机会

1. 组合策略的自动化优化 ⭐⭐⭐

2. 无数据/少数据压缩 ⭐⭐⭐

3. 压缩感知训练 ⭐⭐

4. 动态压缩 ⭐⭐⭐

5. 跨模态压缩迁移

6. 压缩对推理能力的影响 ⭐⭐

7. 边缘-云协同的智能调度 ⭐⭐⭐

技术趋势总结

主导技术路线

  1. 量化 - 当前最成熟、效果最好的单一技术
  2. PEFT (LoRA/QLoRA) - 微调场景的标准选择
  3. MoE稀疏激活 - 超大模型的未来方向

新兴方向

  1. 神经元级稀疏 - 比层级稀疏更细粒度
  2. 密集转MoE - 无需重训练的架构转换
  3. 自适应压缩 - 根据输入/资源动态调整

实践建议

下一步行动

基于文献分析,建议重点探索以下方向:

  1. 自适应组合压缩 - 自动搜索最优技术组合和顺序
  2. 无数据压缩 - 利用模型内在结构的无监督方法
  3. 动态压缩 - 输入自适应的压缩机制
  4. 边缘-云协同 - 智能任务分配与卸载

Sources

压缩技术综合

知识蒸馏

量化

参数高效微调

混合专家

边缘部署

工具与框架