README
知乎大模型与CUDA系列文章汇总
本目录包含了来自知乎专栏"高性能计算与 AI infra"的17篇技术文章总结。
文章列表
大模型基础
- 大模型基座实习经验总结 - 预训练数据方向实习生的9个月经验分享
系统与工具
- sys(2): 通信原语及其性能分析 - 分布式通信的核心原语详解
- sys(1): 内存墙与LLM 计算 - LLM计算中的内存瓶颈分析
- Tools(2): Nsight Compute 使用指南 - CUDA性能分析工具完整教程
- Tools(1): 典型框架语言的分析手段 - 框架性能分析方法
CUDA基础系列
- CUDA(一):CUDA 编程基础 - CUDA编程入门
- CUDA(二):GPU的内存体系及其优化指南 - GPU内存层次与优化
- CUDA(三):通用矩阵乘法:从入门到熟练 - GEMM优化详解
- CUDA(四):使用 CUDA 实现 Transformer 结构 - Transformer的CUDA实现
算子优化系列
- ops(1):LayerNorm 算子的 CUDA 实现与优化
- ops(2):SoftMax算子的 CUDA 实现
- ops(3):Cross Entropy 的 CUDA 实现
- ops(4):AdamW 优化器的 CUDA 实现
- ops(5):激活函数与残差连接的 CUDA 实现
- ops(6):embedding 层与 LM head 层的 CUDA 实现
- ops(7):self-attention 的 CUDA 实现及优化 (上)
- ops(8):self-attention 的 CUDA 实现及优化 (下)
内容分类
大模型训练
- 数据工程与预训练
- 分布式通信原语
- 内存优化
CUDA编程
- 基础概念与编程模型
- 内存体系与优化
- 矩阵运算优化
深度学习算子
- 归一化层(LayerNorm)
- 激活函数(SoftMax、ReLU等)
- 损失函数(Cross Entropy)
- 优化器(AdamW)
- 注意力机制(Self-Attention)
- Embedding层
性能分析工具
- Nsight Compute
- 框架级分析工具
作者信息
专栏作者: 紫气东来
专栏名称: 高性能计算与 AI infra
知乎主页: https://www.zhihu.com/people/zi-qi-dong-lai
使用说明
- 每篇文章都包含原文链接,可访问完整内容
- 文章按照学习路径组织:基础 → 进阶 → 实战
- 建议学习顺序:
- 初学者:CUDA基础系列 → 算子优化系列
- 进阶者:系统与工具 → 算子优化系列
- 大模型方向:大模型基础 → 系统与工具
生成时间: 2026-05-05
文章总数: 17篇
总结工具: Claude Code