damoxing'大模型基座实习经验总结

大模型基座－实习大半年经验总结

作者: 希夷
发布时间: 编辑于 2025-12-06 19:29・天津
原文链接: https://zhuanlan.zhihu.com/p/1980674375867982283

文章概要

这是一位在文本大模型基座团队实习近9个月的预训练数据方向实习生的经验总结。文章不涉及具体技术方案和细节，而是分享了最有价值的洞察和给新实习生的工作建议。

核心洞察

1. 数据是大模型的核心竞争力

关键观点：

开源大模型开源的是模型权重、架构代码、训练脚本，但没有任何厂家会开源训练数据
开源数据集存在"不可能三角"：无法同时做到大规模、高质量、安全可信
唯一出路：构建自研数据集，通过复杂的数据流水线（清洗、过滤、去重、合成）从混合数据源构建专有配方

比喻：

训练超参数 = 炼丹的"火候"
数据配比 = "丹方"

2. 每个公司都有独特的"数据护城河"

典型案例：

阿里：电商数据
小红书：post数据
米哈游：游戏数据
美团：外卖数据

权衡：虽然业务数据会占用预训练数据quota，可能损失benchmark分数，但能在自家业务应用上表现更出色。

3. 数据工作的技术门槛与经验积累

技术门槛：

计算效率问题：从本地几万条数据到TB/PB级数据的scaling
工程能力：优化Spark代码、模型适配vLLM推理，不能完全依赖工程团队
数理基础：数据配比研究、预训练模型评估

经验积累：

消融实验的setting设置（模型大小、冷/热启动/退火、数据配比）
对数据的认知需要长期积累

4. 培养数据敏感性

关键数值敏感性：

例如：CC数据集中Math数据的token量（参考DeepSeek-Math、DeepSeek-Coder-V2的数据）
数据生产流程每一步的过滤比例是否合理

数据敏感性（更高难度）：

从模型输出的token分布和pattern反推数据问题
需要长期细心观察和培养

给新实习生的建议

1. 明确定位

找到自己在团队中的定位（如：提升预训练数据的token efficiency）
理解自己团队与其他团队的关系

2. 平衡"干活"与"成长"

现实：

大模型行业拼的是手速，老板在乎结果而非过程
用"丑陋的代码、粗糙的方案"快速出结果也是合理选择

长期发展：

项目完成后需要复盘：哪里可以优化迭代
实践后再把理论吃透，提升能力
"把活干好"和"提升自己"是交集关系，不是对立关系

总结

这篇文章揭示了大模型行业的一个核心真相：数据才是真正的护城河。技术门槛不仅在于算法和模型架构，更在于构建高质量数据集的工程能力、数理基础和长期经验积累。对于实习生而言，需要在快速交付结果和长期能力提升之间找到平衡点。