Pallas TPU# TPU 特定文档。 指南 使用 Pallas 编写 TPU 内核 什么是 TPU? 值得注意的属性和限制 支持的操作 流水线 TPU及其内存空间 使用VMEM/SMEM的限制 入门:流水线处理 Pallas中的流水线处理 处理缩减 Megacore配置中的TPU 结论 矩阵乘法 背景 你的第一个矩阵乘法内核 矩阵乘法性能 流水线内核的性能 矩阵乘法的模板化 结论 Pallas中TPU的分布式计算 TPU 拓扑结构 远程直接内存访问(RDMA)模型 高级技术 最终说明