README

知乎大模型与CUDA系列文章汇总

本目录包含了来自知乎专栏"高性能计算与 AI infra"的17篇技术文章总结。


文章列表

大模型基础

  1. 大模型基座实习经验总结 - 预训练数据方向实习生的9个月经验分享

系统与工具

  1. sys(2): 通信原语及其性能分析 - 分布式通信的核心原语详解
  2. sys(1): 内存墙与LLM 计算 - LLM计算中的内存瓶颈分析
  3. Tools(2): Nsight Compute 使用指南 - CUDA性能分析工具完整教程
  4. Tools(1): 典型框架语言的分析手段 - 框架性能分析方法

CUDA基础系列

  1. CUDA(一):CUDA 编程基础 - CUDA编程入门
  2. CUDA(二):GPU的内存体系及其优化指南 - GPU内存层次与优化
  3. CUDA(三):通用矩阵乘法:从入门到熟练 - GEMM优化详解
  4. CUDA(四):使用 CUDA 实现 Transformer 结构 - Transformer的CUDA实现

算子优化系列

  1. ops(1):LayerNorm 算子的 CUDA 实现与优化
  2. ops(2):SoftMax算子的 CUDA 实现
  3. ops(3):Cross Entropy 的 CUDA 实现
  4. ops(4):AdamW 优化器的 CUDA 实现
  5. ops(5):激活函数与残差连接的 CUDA 实现
  6. ops(6):embedding 层与 LM head 层的 CUDA 实现
  7. ops(7):self-attention 的 CUDA 实现及优化 (上)
  8. ops(8):self-attention 的 CUDA 实现及优化 (下)

内容分类

大模型训练

CUDA编程

深度学习算子

性能分析工具


作者信息

专栏作者: 紫气东来
专栏名称: 高性能计算与 AI infra
知乎主页: https://www.zhihu.com/people/zi-qi-dong-lai


使用说明

  1. 每篇文章都包含原文链接,可访问完整内容
  2. 文章按照学习路径组织:基础 → 进阶 → 实战
  3. 建议学习顺序:
    • 初学者:CUDA基础系列 → 算子优化系列
    • 进阶者:系统与工具 → 算子优化系列
    • 大模型方向:大模型基础 → 系统与工具

生成时间: 2026-05-05
文章总数: 17篇
总结工具: Claude Code