README

知乎大模型与CUDA系列文章汇总

本目录包含了来自知乎专栏"高性能计算与 AI infra"的17篇技术文章总结。

文章列表

大模型基础

大模型基座实习经验总结 - 预训练数据方向实习生的9个月经验分享

系统与工具

sys(2): 通信原语及其性能分析 - 分布式通信的核心原语详解
sys(1): 内存墙与LLM 计算 - LLM计算中的内存瓶颈分析
Tools(2): Nsight Compute 使用指南 - CUDA性能分析工具完整教程
Tools(1): 典型框架语言的分析手段 - 框架性能分析方法

CUDA基础系列

CUDA（一）：CUDA 编程基础 - CUDA编程入门
CUDA（二）：GPU的内存体系及其优化指南 - GPU内存层次与优化
CUDA（三）：通用矩阵乘法：从入门到熟练 - GEMM优化详解
CUDA（四）：使用 CUDA 实现 Transformer 结构 - Transformer的CUDA实现

算子优化系列

内容分类

大模型训练

数据工程与预训练
分布式通信原语
内存优化

CUDA编程

基础概念与编程模型
内存体系与优化
矩阵运算优化

深度学习算子

归一化层（LayerNorm）
激活函数（SoftMax、ReLU等）
损失函数（Cross Entropy）
优化器（AdamW）
注意力机制（Self-Attention）
Embedding层

性能分析工具

Nsight Compute
框架级分析工具

作者信息

专栏作者: 紫气东来
专栏名称: 高性能计算与 AI infra
知乎主页: https://www.zhihu.com/people/zi-qi-dong-lai

使用说明

每篇文章都包含原文链接，可访问完整内容
文章按照学习路径组织：基础 → 进阶 → 实战
建议学习顺序：
- 初学者：CUDA基础系列 → 算子优化系列
- 进阶者：系统与工具 → 算子优化系列
- 大模型方向：大模型基础 → 系统与工具

生成时间: 2026-05-05
文章总数: 17篇
总结工具: Claude Code