Lecture 1:存储器技术概览

ECE 6465 Memory Device Technologies and Applications · Shimeng Yu(Georgia Tech)· 总时长约 1 小时 20 分 · Part 1 · Part 2

1. 开场:VLSI 系统的三大支柱 P1 00:00:03

本讲是课程第 1 节(Section 1: Overview of Memory Technologies),大纲分三块:① 智能手机中的存储器(Memory in a Smartphone);② 存储器层次结构(Memory Hierarchy);③ 阵列效率与芯片实例(Array Efficiency and Chip Examples)。

教授首先给出全课程的立足点:构建 VLSI 系统的三大支柱(three pillars)是 计算(Computation)——处理器/逻辑模块、存储(Memory)——存放数据的各类存储器、通信(Communication)——在计算与存储单元之间搬运数据的互连/IO。幻灯片标题点题:"VLSI System – Don't Forget the Memory":存储器是系统中与计算同等重要的组成部分。

VLSI 系统三大支柱:Computation / Memory / Communication 三个圆的示意图
图:VLSI 系统三大支柱——计算、存储、通信。

2. 智能手机里的存储器:S20 Ultra 拆解与成本分解 P1 00:01:43

引用逆向工程公司 TechInsights 对 Samsung S20 Ultra(2020 年旗舰机)的拆解(teardown)报告——教授指出其主要组件构成与当今手机并无本质区别。主板正面两个最大的封装都是存储芯片:

其余组件包括电源管理 IC(PMIC,将充电器电压转换/调节后给各芯片供电)、5G modem(Snapdragon X55)、Wi-Fi/BT 模块等;主板背面多为电源管理/稳压与 Wi-Fi 模块。"处理器 + DRAM + NAND"是系统中最大的两类芯片,由真实产品建立实物直觉。

S20 Ultra 主板正面标注图:12GB LPDDR5 DRAM 与处理器共封装、256GB NAND Flash
图:S20 Ultra 主板正面——12GB LPDDR5(与处理器 PoP 共封装)与 256GB NAND Flash。

成本分解 P1 00:04:53

据 TechInsights 数据,整机总成本(含材料、设计、制造、测试)约 $528.50(2020 年),而该机售价超过 $1000(约 $1300),可见利润空间。成本大项:SoC(CPU+GPU,约 $81)、三摄相机(约 $107.50)、OLED 显示屏;存储约占整机成本的 1/8,在图中分为 Volatile(DRAM)与 Non-Volatile(NAND)两块独立(standalone)芯片。

讲者强调:① 存储器单 bit 极其便宜(每 bit 是"纳美分"量级),存储是利润很薄、生意很难做的行业。② 成本表中没有 SRAM 的单列成本项——因为 SRAM 作为 cache 集成在处理器内部;从硅片面积看处理器一半以上面积被 SRAM 占据,但成本不能简单按面积分摊:SRAM 是规则图形,设计/验证成本低于随机逻辑。
S20 Ultra 成本分解堆叠柱状图:总成本 $528.50,Memory 约占 1/8
图:S20 Ultra 成本分解——总成本 $528.50,Memory 约占 1/8,另有 Display、Camera、SoC 等大项。

3. 存储器层次结构(Memory Hierarchy) P1 00:08:29

存储子系统按金字塔层次组织,金字塔两侧的轴分别是 延迟(Latency)容量(Capacity)

层级技术典型容量典型延迟
L1 CacheSRAM~100 KB< 1 ns(与处理器同频,1 个时钟周期;3 GHz 时约 0.3 ns)
L2 CacheSRAM~MB~1 ns(约 2 个周期)
L3 CacheSRAM~10 MB~1.5 ns(约 4 个周期)
Last Level CacheeDRAM 或新兴存储器~100 MB~10 ns
主存(Main Memory)DRAM~10 GB~100 ns
Storage Class Memory新兴存储器~100 GB介于 DRAM 与 NAND 之间
SSDNAND Flash~TB 级~10 µs
HDD磁记录> 10 TB~ms

当今处理器 99% 的 cache 都用 SRAM 实现。课堂提问:同为 6T SRAM,为何 L1/L2/L3 特性不同?答案在晶体管的 W/L(宽长比):L1 要求高速,把晶体管尺寸放大(W/L 更大)以提供更大电流、更快充放电,因而同样面积下容量小;L3 追求大容量,用最小尺寸/最小间距的晶体管,速度变慢。每个 bit 都是相同的 6 管结构,差别不在物理距离或金属层。

基本折衷(fundamental tradeoff):存储器越大越慢——bit 数越多,定位数据的 RC 线延迟越长。理想的"通用存储器"(像 SRAM 一样快 + 像 NAND 一样大)违背物理规律,并不存在——这正是层次结构存在的原因。

两组术语对应关系:on-chip memory = embedded memory(片上/嵌入式,与处理器核同片,如 cache);off-chip memory = standalone memory(片外/独立芯片,如 DRAM、NAND)。金字塔上的红线为 易失(volatile)/非易失(non-volatile)分界:线上方(SRAM/eDRAM/DRAM)断电丢数据,线下方(SCM/NAND/HDD)断电保持;习惯上 volatile 称 memory、non-volatile 称 storage,本质区别是数据保持(data retention)。HDD 在消费产品中已少见,但数据中心仍用其做大容量长期归档——仍是最便宜的长期存储方式。

Memory Hierarchy 金字塔:各层技术、延迟与容量标尺
图:存储器层次结构金字塔——延迟与容量两个标尺、片上/片外与易失/非易失分界。

4. 晶体管数量趋势:95% 的硅都在做存储单元 P1 00:17:33

数据来源:G.H. Koh(Samsung),Symp. VLSI Technology Short Course, 2020。纵轴为每 die 晶体管数(10²–10¹²,对数轴),横轴 1971–2019,涵盖 DRAM、2D/3D NAND Flash、Apple CPU、Intel PC/Server CPU、NVIDIA GPU:

著名论断:全球每年制造的硅,约 95% 用于做存储单元(NAND + DRAM + 片上 SRAM 占据绝大多数硅面积)。课堂问答:摩尔定律死了吗?——就"每 die 晶体管数"而言至今仍指数增长,未来或饱和,但今天还没有。
Transistors per Die 历史趋势散点图(1971–2019),NAND 相对 CPU 高约 10 倍
图:1971–2019 年每 die 晶体管数趋势——NAND 已达 Tb 级,比 CPU 高约一个数量级(10X)。

5. 大数据、内存墙与能耗瓶颈 P1 00:21:15

引自 Stanford CS 教授 David Cheriton:21 世纪工作负载的特点是海量松散结构化数据(large amounts of loosely-structured data)——流媒体视频/音频、自然语言、实时传感器、上下文环境;手机拍照摄像、车载/监控摄像头持续产生数据,再加上 ChatGPT 类自然语言查询。结论:Big Data means Big Memory——既要容量(capacity)存数据,也要带宽(bandwidth)访问数据。

Memory Wall:CPU—主存性能差距 P1 00:22:34

内存墙(Memory Wall)最早指 von Neumann 架构瓶颈。Hennessy 等教材《Computer Architecture: A Quantitative Approach》中的经典图显示:1980–2010 年间处理器与 DRAM 的归一化性能(带宽)差距持续拉大——处理器受益于工艺微缩与多核越算越快,瓶颈在到 DRAM 的 IO 带宽。GPU 趋势图(Peak FLOPs vs Memory Bandwidth,数据源 Gholami et al. "AI and Memory Wall")同样表明:从 Pentium II Xeon 到 H100,算力增长远快于显存带宽(GDDR3→GDDR5→HBM→HBM2E/HBM3),缺口越来越大。这正是学术界研究存内计算(in-memory computing)/近存处理(near-memory processing)的动机:不再在处理器与 DRAM 之间来回搬数据,而是在 DRAM(甚至 NAND)附近或内部做处理。

课堂问答补充:互连是瓶颈——DDR 类 DRAM 经引脚插在主板上、通过真实数据总线传输,RC 与布线损耗大,接口电路高速传输非常耗电;数据一旦跨芯片(板级 cm~十 cm 量级)就很低效,而片内互连只有 mm~十 mm 量级。

Memory Wall 双图:von Neumann CPU 瓶颈与 GPU Peak FLOPs vs Memory Bandwidth
图:内存墙——CPU 与主存的性能差距(左),GPU 算力与显存带宽增长失衡(右)。

能耗视角:能量花在数据搬移上 P1 00:25:42

数据来源:S. Mitra(Stanford);测量平台为 2 个 CPU(每 CPU 8 核)+ 128 GB DRAM,用 Intel 性能计数器监测。运行真实大数据负载的能耗分解:基因测序(Genomics)95% 能耗在 Memory、仅 5% 在 Compute;自然语言处理(NLP)82% 在 Memory、18% 在 Compute

关键澄清:能耗大头不是 DRAM 单元的读操作本身,而是把数据从 DRAM 经 IO/数据总线搬到处理器的数据传输过程。存储器已成为整个系统在吞吐、带宽与能耗三方面的瓶颈。
能耗饼图:Genomics 95% / NLP 82% 的能耗在 Memory
图:真实大数据负载能耗分解——Genomics 95%、NLP 82% 的能量消耗在存储侧。

6. 训练大语言模型的内存带宽需求 P1 00:27:15

图为 Dense LLM Theoretical Bandwidth Requirements(FP8 量化;来源 SemiAnalysis "GPT-4 architecture & infrastructure"):横轴模型规模 65B→50,000B 参数,纵轴所需内存带宽(1,000–10,000,000 GB/s,对数轴)。

幻灯片原话:"LLM is a Memory-bounded application!"——模型太大,必须装进 GPU 的 DRAM 并以极高速度读入,带宽成为瓶颈。带宽不足的直接后果是响应延迟(query 发出后等很久,而许多场景要求实时响应)。

课堂问答:8×H100 不是同一封装,而是机架级真实系统(8 块板);DRAM 刷新(refresh)功耗约占 DRAM 总功耗的 10%–20%(依技术而定)。

LLM 带宽需求图:GPT-4 约 1T 参数对应带宽需求与 A100/H100/8×H100 供给线对比
图:Dense LLM 理论带宽需求 vs 模型规模——GPT-4(~1T 参数)需求远超 8×H100 的供给能力。

7. DRAM 与 NAND 的规格差距与新兴存储器的机会 P1 00:32:43

来源:J.H. Yoon, H.C. Hunter, G.A. Tressler(IBM),Flash Memory Summit, paper C-12, 2013。Memory(DRAM)与 Storage(NAND)的六维对比:

指标DRAMNAND
每 bit 成本(Cost per Bit)$5.50 /GB$0.70 /GB
读/写延迟10 ns25–200 µs
单元耐久性(Endurance)10¹⁵ 次写10⁴ 次写
数据保持(Retention)< 1 s(需刷新)3 个月–10 年
满带宽功耗(Power per GB)2 W/GB0.5 W/GB
带宽(Bandwidth)10 GB/s250 MB/s
讲者强调:这是 2013 年数据,但相对比例至今仍然成立——DRAM 每 bit 成本仍约为 NAND 的 ~10 倍(绝对值已降,如 1GB DRAM 从 ~$5 降到 ~$1);速度差距也基本未变(DRAM ~10 ns 读、NAND ~100 µs 量级)。DRAM 与 NAND 延迟差 3–4 个数量级,这个"缺口"正是新兴存储技术可以切入的机会
DRAM vs NAND 六维规格对比楔形图(成本、延迟、耐久、保持、功耗、带宽)
图:DRAM 与 NAND 之间的规格差距——六个维度的完整数值。

新兴存储器与 3D XPoint 的教训 P1 00:35:04

存储层次中出现了"空白地带"(white space):速度/容量缺口——许多应用需要大量 GB 且最好非易失。核心问题(幻灯片原话):"Which memory for which application?"(哪种存储器适合哪种应用?)新兴存储器研究已 15+ 年(教授入行至今),至今仍被称为 "emerging"——尚未大规模量产商用。根本原因:主流 NAND 与 DRAM 仍在持续微缩(3D NAND、3D DRAM 提高密度),新兴存储器始终难以抢占大市场;但 3D 化只提升密度、不提升速度——所以人们寄望于 Storage Class Memory(SCM,存储级内存) 填补缺口。

3D XPoint 的教训:Intel/Micron 的相变存储器(PCM)产品 3D XPoint 约 2015 年上市、2021–2022 年停产。从规格上它确实落在 DRAM 与 NAND 之间的缺口里——项目失败不是技术原因而是商业原因:找不到足够客户,客户习惯于现有 3D NAND/DRAM 生态,新技术进入市场困难。近期例子:Micron 的 32 Gb FeRAM 原型芯片——技术可行,同样面临商业化难题。

机会图(Access Time vs Integration Density):黄色 Volatile "Memory" 圈(SRAM、eDRAM/MRAM/FeFET、DRAM/3D DRAM,access time ~10⁻¹⁰–10⁻⁸ s,密度 ~10⁷–10⁹ b/mm²);绿色 Non-volatile "Storage" 圈(NAND/3D NAND、HDD,access time ~10⁻⁴–10⁻² s,密度 ~10⁹–10¹⁰ b/mm²);中间蓝色椭圆即 Storage-Class Memory(3D XPoint 式 PCM、RRAM 或 FeRAM)。顶轴 Endurance 从 10¹⁶(SRAM 侧)到 10³(HDD/NAND 侧)。幻灯片备注的密度参考值:SRAM 10–50 Mb/mm²、DRAM 100–300 Mb/mm²、SCM 500 Mb–2 Gb/mm²、NAND 3–10 Gb/mm²。

关于 endurance 的课堂问答:NAND 耐久性有限(10⁴ 次)但够用,因为存储类访问不频繁(拍照频率分钟级),按产品 3–10 年寿命估算所需写入次数即可;而 SCM 若用作内存,对 endurance 的要求高得多——这是其挑战之一。

Opportunities for Emerging Memories:white space 与 Which memory for which application?
图:新兴存储器的机会——层次结构中的"空白地带"。
Access Time vs Integration Density 机会图:Memory / SCM / Storage 三大区域与 Endurance 顶轴
图:访问时间 vs 集成密度——SCM 位于 Memory 与 Storage 两大区域之间的蓝色椭圆。

8. 通用存储阵列架构 P1 00:40:24

(此处课堂投影仪故障重启,教授切到 PowerPoint 窗口继续讲解"Generic Memory Array Architecture"一页,无独立干净截图。)无论 SRAM、DRAM 还是 Flash,二维空间中存储器都组织为阵列架构——这是贯穿全课程所有存储技术的通用模型:

9. 存储单元面积与位面积(F² 度量) P1 00:42:55

(教授提示:本页是作业/考试考点。)单元面积惯用 度量,F = feature size(特征尺寸),即给定工艺节点下光刻可分辨的理论最小尺寸(最小半间距)。

二维平面上单元面积的理论极小值是 4F²(cross-point 交叉点阵列):单元位于一条 WL(宽 F)与一条 BL(宽 F)的交点,但相邻线间还需 F 的间隔做隔离,故每单元实际占 2F × 2F = 4F²。
技术单元面积说明
SRAM(6T)150–300 F²取决于应用层级:L1 用大管子 ~300F²,L3 用最小尺寸 ~150F²;版图约 7.5–10F × 20–30F
DRAM(1T1C)6 F²2F × 3F
NOR Flash~10 F²后续课程再讲
2D NAND Flash(SLC)4 F²达到二维理论极限(2F × 2F)
2D NAND Flash(MLC,n bit/cell)4 F²/n2 bit/cell → 4F²/2;3 bit/cell → 4F²/3
3D NAND Flash(L 层,n bit/cell)4 F²/(nL)SLC 为 4F²/L

MLC(多值单元):SRAM/DRAM 是二值存储(一个单元只存 0 或 1),而 Flash 一个单元可存多 bit(如 00/01/10/11 = 2 bit),等效位面积按 bit 数除。3D NAND:把 2D NAND 的晶体管串(string)旋转 90°,沿垂直方向堆叠 L 层晶体管;硅衬底上的占地仍是 2F×2F,投影到二维后每 bit 等效面积除以 L。目前最新产品 L 已超过 300 层——这就是 NAND 每 bit 硅面积极小、价格极便宜的原因。课堂问答:3D NAND 良率——量产产品良率需达 99.x%,业界已解决,不是大问题。

单元面积汇总页:SRAM/DRAM/NOR/2D NAND/3D NAND 全部面积公式与版图示意
图:各类存储器单元面积与位面积——4F²、6F²、4F²/(nL) 等核心公式(考点)。

10. 存储阵列效率(Array Efficiency) P1 00:50:08

定义:阵列效率 = 存储单元占用面积 ÷(存储单元 + 其外围电路)面积的百分比,且只统计存储部分(memory part only)。它是衡量存储芯片/宏设计好坏的指标——设计目标是最大化阵列效率:硅面积应尽量花在真正存数据的单元上,外围电路只是辅助读写,理想情况下越少越好。

芯片类型典型阵列效率
微处理器(cache,SRAM)~30–50%
DRAM~60–70%
NAND~70–80%

外围电路(peripheral circuitry)包括:地址译码器(address decoders)、灵敏放大器(sense amplifiers)、控制逻辑(时序控制、状态控制)、片上高压产生用的电荷泵(charge pumps)。幻灯片示例:2D NAND 芯片版图(两个 4Gb Memory Array Plane0/Plane1,中间 Row Decoder,底部 BL 控制电路、外围电路、电荷泵、Pads),以及 8 核 CPU die photo(共享 L3 cache 区域)。

对 CPU 的重要澄清:计算 cache 的阵列效率时,分母只取该 cache 层级(如 L3)的面积,不包含其他逻辑核——谈处理器的 30–50% 时必须指明是哪一级 cache(教授手写批注 "specify which cache level"),再看该层级内 SRAM 单元占比。处理器的 cache 阵列效率天然低于独立存储芯片。
Array Efficiency 定义页:定义、各类典型百分比、外围电路四要素、NAND 版图与 CPU die photo
图:阵列效率定义与典型值——NAND 70–80%、DRAM 60–70%、CPU cache 30–50%。

Part 1 因投影仪故障未讲完,芯片实例从 Part 2 开始(Part 2 开头先回顾了本页 P2 00:00:00)。以下各节用真实硅片数据(Intel / IBM / AMD / Nvidia / SK Hynix / NAND 芯片)逐一验证阵列效率概念,并展望 SRAM/DRAM/NAND 各自进入的 3D 时代。

11. 案例 1:Intel Westmere 与 L3 阵列效率计算 P2 00:00:31

来源:N. Kurd et al., "Westmere: A Family of 32 nm IA Processors," ISSCC 2010, paper 5.1。2010 年发布,有 6 核与 2 核两个版本,6 核版含 1.17B(11.7 亿)晶体管:

Intel Westmere 32nm 处理器参数与 die photo:0.171/0.275 µm² 6T SRAM、V_min 数据
图:Intel Westmere 32 nm 处理器——L3/L2 SRAM 单元面积与工作电压参数。

数据表与"信封背面"计算 P2 00:02:15

处理器工艺核数L3Die 面积晶体管数核电压范围TDP
Nehalem-4Core45 nm48 MB262 mm²731 M0.75–1.25 V60–130 W
Westmere-6Core32 nm612 MB240 mm²1.17 B0.72–1.20 V60–130 W
Westmere-2Core32 nm24 MB78 mm²384 M0.72–1.20 V10–50 W

L3 cache 阵列效率的"信封背面"计算步骤:

结论:SRAM 阵列效率处于低端(~27–30%),而 DRAM 可达 60% 甚至 80%——因为 SRAM 的外围(高速读写电路)开销大。
Westmere 三款处理器数据表(L3/面积/晶体管/电压/TDP),圈出 12MB 与 240mm²
图:Nehalem 与 Westmere 6 核/2 核数据表(圈出 12 MB / 240 mm²)。
L3 阵列效率完整计算步骤页:26% 面积占比与约 27% 阵列效率结果
图:L3 cache 阵列效率的完整计算——26% 面积占比 → 约 27% 阵列效率。

12. 案例 2:IBM Power9——用 eDRAM 做 L3 P2 00:05:30

ISSCC 2017 发表;24 核 scale-out 处理器,GlobalFoundries 14 nm SOI FinFET 工艺(IBM 与 GF 合作),8.0B 晶体管,die 695 mm²,17 层铜互连,时钟 4 GHz。面向高性能计算:DOE 与 Oak Ridge / Lawrence Livermore 国家实验室的 Summit 和 Sierra 超级计算机即基于 Power9 + Nvidia Volta GPU。系统接口:4×DDR4 端口(1866–2667 MT/s)、SMP 接口 256 GB/s、48 lane PCIe G4(192 GB/s)、25G link(100–150 GB/s)连接加速器。

缓存层级:每 die 有 6 个 Quad,每 Quad 4 核;每核 32 KB L1 指令 cache + 32 KB L1 数据 cache;每 2 核共享 512 KB L2;全片共享 120 MB L3。每核可独立电源门控。

关键特色:L3 不是 SRAM,而是 eDRAM(嵌入式 DRAM,1T1C 结构)——IBM/GF 特有工艺。同一技术节点下 1T1C 远小于 6T SRAM。片上共 4 种定制 RAM 单元:核心 SRAM 用性能优化的 0.102 µm² 单元、密集 SRAM 用漏电优化的 0.102 µm² 单元、可编译 SRAM 用 8T 0.143 µm² 单元、L3 用 0.0174 µm² eDRAM 单元(比密集 SRAM 小 5 倍以上)——因此才能塞下 120 MB L3。eDRAM 细节将在 DRAM 章节展开。
IBM Power9 总览:14nm SOI FinFET、8.0B 晶体管、695mm²、Summit/Sierra 超算背景
图:IBM Power9 总览——系统框图与工艺/晶体管/频率参数。
Power9 die 布局(6 个 Quad)与 4 种 RAM 单元尺寸,L3 用 0.0174 µm² eDRAM
图:Power9 die 布局与缓存层级——4 种定制 RAM 单元,L3 采用 0.0174 µm² eDRAM。

13. 案例 3:AMD Zen 2 版图与 Zen→Zen 2 设计规则 P2 00:09:01

TSMC 7 nm FinFET 工艺,ISSCC 2020 披露;用于商用 Ryzen 3 处理器。一个 CCX 的 die photo:4 核(Core 0–3),每核 32 KB L1(指令/数据分离)+ 512 KB L2;中央为 4 核共享的 16 MB L3

观察结论:仅 L3 cache 就占整个处理器 die 面积 50% 以上——处理器的大部分硅面积被 SRAM 占据。
AMD Zen 2 (Ryzen 3) die photo:4 核 + 中央 16MB L3 + 每核 512KB L2 标注
图:AMD Zen 2 整体 die photo——4 核环绕中央 16 MB 共享 L3。
Zen 2 L2/L3 放大版图:4M Slice、L3 Data/Tags/CTL、LDO 标注
图:Zen 2 的 L2/L3 放大版图——4 MB slice 内的数据阵列与 Tags/控制等外围逻辑。

Zen vs Zen 2 技术参数对比 P2 00:10:46

项目ZenZen 2
工艺14 nm FinFET7 nm FinFET
Cores/CCX4 核 8 线程4 核 8 线程
Area/CCX44 mm²31.3 mm²
L2/core512 KB512 KB
L3/CCX8 MB16 MB
CPP(contacted poly pitch)78 nm57 nm
Fin Pitch48 nm30 nm
1x Metal Pitch64 nm57 nm
标准单元库10.5 track6 track
铜金属层11 层(含 MiM)13 层(含 MiM)

解释:CPP 是源到漏方向相邻栅极(接触多晶硅)的间距,与 Fin Pitch、Metal-1 Pitch 一起是逻辑晶体管/标准单元密度的关键指标;6-track 库指一个标准单元高度内有 6 条 Metal-1 走线轨道;共 13 层金属完成互连布线。

AMD Zen Technology (by TSMC):Zen 与 Zen 2 设计规则对比表
图:Zen vs Zen 2 设计规则对比(CPP / Fin Pitch / Metal Pitch / track 库 / 金属层数)。

14. SRAM 新时代:AMD 3D V-Cache P2 00:12:24

AMD 在 Zen 3 引入 3D 堆叠 cache(Zen 4 架构当年也已宣布沿用),开创 SRAM 3D 集成先河:

意义:当 2D 微缩停止时,必须利用第三维堆叠更多晶体管——3D 集成延续 Moore 微缩。
AMD 3D V-Cache 结构示意:64MB 顶部 L3D 与 32MB 底部 die 通过 Cu-Cu 混合键合堆叠
图:Zen 3 的 3D V-Cache——64 MB 顶部 die + 32 MB 底部 die,Cu-to-Cu 混合键合。

15. GPU 中的 SRAM:Nvidia A100 P2 00:16:54

Nvidia 7 nm A100 GPU 片上 SRAM 总量约 87.25 MB,但组织方式与 CPU 完全不同。GPU 由大量小核并行:Nvidia 称之为 SM(Stream Multiprocessor,流多处理器),是 GPU 的关键计算单元;A100 共 108 个 SM

架构哲学对比:CPU 是少量大核 + 大容量共享 L3;GPU 是上百个小核、每核百 KB 级 L1 + 共享 L2——两者截然不同。
Nvidia A100 die 布局:47.25MB 分布在 108 个 SM 中 + 40MB 共享 L2,含 SM 内部放大图
图:A100 的 SRAM 分布——108 个 SM 内 47.25 MB + 共享 L2 40 MB。

16. DRAM 案例:SK Hynix DDR5 与 H100 上的 HBM P2 00:19:03

SK Hynix 在 ISSCC 2019 发表的第一代 DDR5 芯片(DDR 第五代):

项目参数
容量16 Gb
数据速率6.4 Gbps/pin
供电VDD/VDDQ 1.1 V,VPP 1.8 V
Die 面积76.22 mm²
工艺1y-nm 4 层金属 DRAM 工艺("10 几 nm"的第二代节点)
IO 配置X4 / x8 / x16
Burst lengthBC8、BL16 on-the-fly
RAS 特性In-DRAM ECC
均衡方案DFE / FFE

版图特征:DRAM die 非常规整——数十个 bank(图中标注 1 Bank / 1 Bank Group)占据绝大部分面积,外围逻辑只占边角很小区域,这正是 DRAM 阵列效率高(60–80%)的直观体现。细节留到 DRAM 章节。

SK Hynix DDR5 16Gb DRAM die photo 与 Chip summary 参数表
图:SK Hynix 第一代 DDR5 16 Gb——die photo 与芯片参数摘要。

DRAM 新时代:HBM 与 GPU 共封装(Nvidia H100) P2 00:20:15

DRAM 也因 3D 集成进入新时代:HBM(High Bandwidth Memory,高带宽存储器)是当今 GPU 产品的关键使能技术,Nvidia 从中获益巨大。以 H100(GH100,Hopper 架构,2023-03-21 发布)为例:

项目参数
工艺 / 晶体管TSMC 5 nm,80,000 M(800 亿)晶体管,密度 98.3 M/mm²
Die 面积814 mm²
HBM 配置6 颗 HBM3 堆栈共封装;每堆栈 = 8 片 DRAM die 垂直堆叠 × 16 GB → 共 96 GB
内存总线 / 带宽5120 bit;3.36 TB/s(GPU 从 DRAM 取数带宽)
Boost clock1837 MHz
Cache / SML1 256 KB/SM,L2 50 MB;SM 数 132
TDP700 W
理论性能FP16 248.3 TFLOPS(4:1)、FP32 62.08 TFLOPS、FP64 31.04 TFLOPS(1:2)

HBM 细节在 DRAM 章节再讲,此处是市场最新产品的预告。

Nvidia H100 数据表与封装照片:GPU 核周围 6 颗 HBM 堆栈,96GB / 3.36TB/s
图:H100 的 HBM 共封装——6 颗 HBM3 堆栈环绕 GPU 核,共 96 GB、3.36 TB/s。

17. NAND 案例:2D NAND 微缩的终点 P2 00:22:25

2D NAND 微缩历程(2008–2014/2015,die 面积年均缩小 28%):42 nm/935 mm²(2008)→ 32 nm/636 mm²(2009)→ 27 nm/480 mm²(2010)→ 21 nm/325 mm²(2011)→ 19 nm/220 mm²(2012)→ 16 nm/175 mm²(2014)→ 14 nm/130.1 mm²(2015 ISSCC,最后一代 2D NAND),最后一代较上代缩小 26%。

最后一代 2D NAND(ISSCC 2016 论文:128Gb 2b/cell,14 nm,tPROG = 640 µs,800 MB/s I/O):单芯片 128 Gb,分 4 个 plane、每 plane 32 Gb 阵列;外围(sense amp、列译码、外围电路与 PAD)位于底部窄条。2014/2015 年 2D 微缩停止,NAND 转向 3D NAND——距今约 10 年。

课堂答疑:2D NAND 无法继续微缩的原因很多——几何上、电学上(单元间耦合干扰)、保持特性(retention)等,细节留到 NAND Flash 章节。

2D NAND 微缩历程图:2008 年 42nm/935mm² 到 2015 年 14nm/130.1mm²(128Gb,4×32Gb plane)
图:2D NAND die 面积微缩历程(2008–2015)——止于 14 nm/130.1 mm²/128 Gb,随后转向 3D NAND。

18. 讲者总结(Summary) P2 00:24:06

讲者强调:存储产业(尤其 DRAM/NAND)的核心是"成本、成本、还是成本"——降低每比特成本(cost per bit)是存储产业的终极目标;DRAM 可能还兼顾带宽,但对 NAND Flash 而言成本就是一切。
Summary 总结页:六条结论,cost, cost, cost
图:本讲 Summary 总结页。

本讲要点总结

术语表

术语中文释义
VLSI超大规模集成电路由计算、存储、通信三大支柱构成的集成系统。
SRAM(6T)静态随机存取存储器6 晶体管单元(交叉耦合反相器保持数据)、最快的易失存储器,用作处理器各级 cache。
DRAM动态随机存取存储器1T1C 单元(6F²)、需周期性刷新的易失存储器,作系统主存。
1T1C一管一容单元DRAM 基本单元结构:一个存取晶体管加一个存储电容。
eDRAM嵌入式 DRAM集成在逻辑芯片上的 1T1C DRAM,单元远小于 6T SRAM(Power9 中 0.0174 µm²)。
NAND FlashNAND 闪存串联结构非易失存储器,单 bit 面积最小(4F²/(nL)),用于 SSD/手机存储。
NOR FlashNOR 闪存并联结构闪存,单元约 10F²,本讲仅提及。
2D/3D NAND平面/三维 NAND平面 NAND 微缩止于 14nm/128Gb(2014/2015),之后转向垂直堆叠的 3D NAND(现 >300 层)。
LPDDR5低功耗 DDR 第 5 代手机用低功耗 DRAM 接口标准。
DDR5第五代双倍数据率内存SK Hynix 2019 年首发:16Gb、6.4Gbps/pin、1.1V。
PoP堆叠封装手机中 DRAM 与处理器共封装的方式(Package on Package)。
PMIC电源管理芯片将输入电压转换并调节后分配给系统各芯片。
UFS通用闪存存储手机 NAND 存储的接口标准(S20 Ultra 为 UFS 3.0)。
Cache(L1/L2/L3)高速缓存处理器片上 SRAM 多级存储层级:越靠近核心越快越小,越外层容量越大、单元越密。
Memory Hierarchy存储器层次结构按延迟—容量折衷组织的金字塔式存储体系。
On-chip / Embedded memory片上/嵌入式存储器与处理器核同片集成的存储(如 cache)。
Off-chip / Standalone memory片外/独立存储器独立芯片形式的存储(如 DRAM、NAND)。
Volatile / Non-volatile易失/非易失断电后数据是否丢失;前者常称 memory,后者称 storage。
Data Retention数据保持不供电/不刷新条件下保持数据的时间(DRAM <1s,NAND 3 个月–10 年)。
Endurance耐久性存储单元可承受的擦写循环次数(DRAM 10¹⁵,NAND 10⁴)。
Refresh刷新DRAM 周期性重写以防电荷泄漏,约占 DRAM 总功耗 10–20%。
Memory Wall内存墙处理器算力与主存带宽增长失衡造成的性能差距(von Neumann 瓶颈)。
Memory-bound受存储限制的性能瓶颈在存储访问而非计算的工作负载(如大数据、AI/ML、LLM)。
In-memory Computing存内计算在存储器内/附近处理数据以避免数据搬移的研究方向。
LLM大语言模型如 GPT-4(~1T 参数),是 memory-bounded 应用。
HBM高带宽存储器多片 DRAM die 垂直堆叠(H100 为 8 层/堆栈)并与 GPU 共封装;H100 用 HBM3 共 96GB、3.36TB/s。
FLOPs每秒浮点运算次数处理器/GPU 计算吞吐量指标。
Storage Class Memory(SCM)存储级内存性能介于 DRAM 与 NAND 之间的新型存储类别。
3D XPoint交叉点相变存储产品Intel/Micron 的 PCM 产品,2015 年上市后停产;败因在商业而非技术。
PCM / RRAM / FeRAM / MRAM / FeFET相变/阻变/铁电/磁性/铁电晶体管存储各类新兴存储技术,候选填补层次结构空白。
Word Line(WL)/ Bit Line(BL)字线/位线阵列的行/列连线,交点即一个存储单元。
Row/Column Decoder行/列译码器把 M/N 位地址译码为对应行/列选择信号的外围电路。
Sense Amplifier灵敏放大器读出位线上微小信号并放大为逻辑电平的电路。
Write Driver写驱动将数据写入选中单元的外围电路。
Charge Pump电荷泵片上产生高于电源电压的电路(Flash 写/擦除需要)。
Feature Size(F)特征尺寸工艺节点下光刻的理论最小尺寸;单元面积以 F² 计,二维极限 4F²。
SLC / MLC单值/多值单元每单元存 1 bit 或 n bit;MLC 使等效位面积除以 n。
Array Efficiency阵列效率存储单元面积占(单元+外围电路)面积的百分比;NAND 70–80%、DRAM 60–70%、CPU cache 30–50%。
Peripheral Circuitry外围电路存储阵列周边的译码器、灵敏放大器、控制逻辑、电荷泵等支持电路。
Vmin(active/retention)最小工作/保持电压SRAM 正常读写所需最低电压与仅保持数据所需的更低待机电压。
Power Gating电源门控关断空闲模块电源以降低漏电功耗的技术。
SOI FinFET绝缘体上硅鳍式场效应晶体管IBM/GF 14nm Power9 采用的晶体管工艺。
CPP接触多晶硅间距晶体管源漏方向相邻栅极的间距,逻辑密度关键指标(Contacted Poly Pitch)。
Fin Pitch鳍间距FinFET 相邻鳍的间距。
Standard Cell Track Library标准单元轨道库以 Metal-1 走线轨道数定义的标准单元高度(如 6-track)。
LDO低压差线性稳压器片上为各模块供电的稳压电路。
3D V-Cache3D 垂直缓存AMD 用混合键合在 CPU 基础 die 上方堆叠 64MB SRAM L3 扩展 die 的技术。
Hybrid Bonding(Cu-to-Cu)铜-铜混合键合两片 die 以铜垫直接键合的 3D 堆叠工艺,互连开销极小(约 4 个时钟周期延迟)。
SM流多处理器Nvidia GPU 的基本计算单元(Stream Multiprocessor),A100 含 108 个。
Register File寄存器文件GPU 每个 SM 内的高速 SRAM 寄存器阵列(A100 为 256 KB/SM)。
Bank / Bank Group存储体/存储体组DRAM 芯片内部可并行操作的阵列分区单位。
In-DRAM ECC片内纠错码DRAM 芯片内部自带的错误校验纠正(DDR5 的 RAS 特性)。
DFE / FFE判决反馈/前馈均衡高速 IO 信号均衡技术。
Plane平面(NAND 分区)NAND 芯片内可并行操作的阵列分区,128Gb 芯片含 4 个 32Gb plane。
tPROG编程时间NAND 一次编程操作所需时间(最后一代 2D NAND 为 640 µs)。
Cost per bit每比特成本存储产业(尤其 NAND)追求的终极指标。
Teardown拆解分析逆向工程公司(如 TechInsights)拆解产品分析元器件与成本的方法。