Lecture 4:DRAM

ECE 6465 Memory Device Technologies and Applications · Shimeng Yu(Georgia Tech)· 总时长约 4.9 小时 · P1 · P2 · P3 · P4 · P5

1. DRAM 定义与 SRAM/DRAM 对比 P1 00:00:34

DRAM = Dynamic Random Access Memory,三个关键属性:Dynamic(动态)——需要周期性刷新,否则数据因泄漏丢失,这是与 SRAM 最本质的区别;Random Access(随机访问)——每个 bit 可独立读写;Volatile(易失性)——断电后数据丢失。这三个属性决定了 DRAM 的系统定位(主存)及其外围电路设计(刷新控制器、写回机制)。

SRAM 与 DRAM 的全面对比 P1 00:01:05

项目SRAMDRAM
用途片上高速缓存(cache),支撑高速 SoC 运算低成本片外主存(off-chip)
单元面积~140 F²(旧工艺约 150 F²)6–8 F²,同节点下小得多
速度非常快,<1 ns(L1 可匹配 2–4 GHz 时钟)随机读较慢(~23 ns;整行周期约 40 ns)
读操作非破坏性读破坏性读,每次读后必须写回
漏电流>1 pA/cell<1 fA/cell(否则保持特性极差)
工艺为速度优化,tOX ~1 nm为低漏电优化,tOX ~6 nm,字线用升压 VPP
设计与 SoC 设计流程兼容高度定制设计以解耦噪声
讲者强调:DRAM 制造工艺与逻辑工艺截然不同——逻辑代工厂(logic foundry)一般不做 DRAM。DRAM 在专门的 DRAM 工厂以 IDM 模式制造,因为深电容、超低漏电晶体管等需要完全不同的工艺考量。
SRAM vs DRAM 对比表
图:SRAM vs. DRAM 全参数对比表(面积、速度、破坏性读、漏电、工艺)。

2. DRAM 子系统层级:Channel → DIMM → Rank → Chip → Bank → Mat P1 00:03:24

理解内存系统寻址与带宽的基础框架是自顶向下的层级:Channel(通道)→ DIMM(内存条)→ Rank → Chip(芯片)→ Bank →(Mat)→ Row/Column(行/列)

DRAM 子系统:处理器、内存通道与 DIMM
图:DRAM 子系统——处理器经两条 memory channel 连接 DIMM。
Bank 拆解:16k×16k 阵列与 Row-buffer
图:Bank 拆解——16k×16k = 256 Mb 阵列、2kB 行、Row-buffer 与列选择 MUX。
Bank 内的 Mat 子阵列结构
图:Bank 内的 Mat(1k×1k)——Cell Array、BLSA、SWD 与 XY-Cross(真实芯片显微照片)。

3. DDR 协议:Prefetch、Burst 与引脚带宽 P1 00:11:13

DDR(Double Data Rate)是 DRAM 的 I/O 接口协议。关键事实:DRAM 内部(core)时钟仅约 200 MHz,几十年来基本不变(至今约 200–300 MHz,受内部阵列物理限制);而 I/O 时钟被不断"超频"以提供系统级大带宽。核心技巧 = Prefetch(预取)+ 双沿传输:内部一次并行取出多组数据,I/O 在时钟上升沿和下降沿都发数据,本质是 core 与接口之间的并行到串行转换(serialize/deserialize)

代际内部阵列时钟PrefetchI/O 时钟每引脚数据率串行化比
DDR200 MHz2200 MHz400 Mbps2:1
DDR2200 MHz4400 MHz800 Mbps4:1
DDR3200 MHz8800 MHz1600 Mbps8:1

即 DRAM I/O 吞吐率提升 8 倍(200→1600 Mbps/pin),内部总线速度保持 200 MHz 不变;DDR5 思路相同,继续把 I/O 时钟与预取倍数翻倍。注意以上数据率均为每引脚(per pin)指标。

带宽算例 P1 00:16:13:现代 CPU 需要 GB/s 级数据交换——12.8 GB/s 系统数据率 ÷ 64-bit DIMM = 每引脚 1600 Mb/s,而 core 只有 200 MHz,故必须用 DDR3 的 8:1 串行化接口。core 侧时钟由 CSL(列选择线)脉冲构成:2.5 ns 脉宽 + 2.5 ns 间隔 = 5 ns 周期 → 200 MHz。

易错点:接口引脚数量受封装面积、布线层与成本限制,不能靠加引脚解决带宽,只能提高每引脚速率——这是 DDR 协议存在的根本原因。系统带宽公式:BW = (Gbps/pin) × (#I/O pins)
DDR/DDR2/DDR3 框图与数据率
图:DDR 三代框图(DRAM Array → Prefetch → MUX → I/O)与波形、每引脚数据率。
Burst Operation and Prefetch 带宽计算
图:Burst 与 Prefetch——8-bit 并行预取转 8-bit 串行突发,手写标注 12.8 GB/s、64 pin、DDR3 算例。

4. DRAM 历史、产品家族与产业格局 P2 00:02:43

历史:1966 年 IBM 的 Robert Dennard 发明单晶体管 DRAM(同名 Dennard 缩放定律);1970 年 Intel 1103 为首颗商用 DRAM(1 Kb,3 晶体管单元);1973 年 MK4096 为首颗 1T1C DRAM(4 Kb、地址复用、VDD 11.4–12.6 V、访问时间 300 ns、刷新 2 ms)。对比今天:电压 ~1.1 V、访问时间 ~30 ns(改善有限)、刷新 64 ms;真正数量级提升的是容量(4 Kb → 32 Gb,百万倍级)。

产品四大类 P2 00:06:08

类别代表目标场景设计取向每 pin 速率
Commodity DDRSK Hynix 16Gb DDR5(ISSCC 2019)服务器/桌面主存成本优先:大阵列段、长位线/字线摊薄外围面积6.4 Gbps
LPDDRSamsung 16Gb LPDDR5(ISSCC 2021)手机/平板功耗优先:长刷新间隔、短位线、关断未用块8 Gbps
GDDRMicron 8Gb GDDR6X(ISSCC 2021,PAM4)图形/游戏性能优先:短位线短字线降 RC,面积成本高22 Gbps
HBMHBM3P超算 / AI-ML宽接口(1024 pin)+ 3D 堆叠较低,但系统带宽 >1 TB/s

DDR5 芯片参考参数(业界首颗公开 DDR5):16 Gb、6.4 Gbps/pin、1y-nm 工艺、76.22 mm²、VDD/VDDQ 1.1 V、VPP 1.8 V(片上最高电压)、32 banks / 8 bank groups、In-DRAM ECC。

工艺节点 P2 00:20:43:DRAM 的特征尺寸 F 定义为金属 M1 半节距,是真实尺寸(与 logic 的"营销节点"不同)。20→10 nm 之间用 1x(≈19 nm)/1y(≈17 nm)/1z/1a/1b/1c 表示,每代仅缩 1–2 nm;2024 年最新量产为 1b(≈12 nm 级)。没有命名"0x",因为传统 1T1C 缩放接近极限。

市场与商业模式 P2 00:23:36:2020 年市场份额 Samsung 43.5%、SK hynix 30.1%、Micron 21.0%(总市场约 670 亿美元);近年 SK hynix 凭 HBM 升至 ~35%。三大厂均为 IDM(整合器件制造商)、全链路闭环——不存在 DRAM 代工厂,学术界也因此拿不到 1T1C 的 PDK/SPICE 模型。

DRAM 四大产品类别
图:DRAM 产品四大类——DDR5(成本)、LPDDR5X(功耗)、GDDR6+(性能)、HBM3P(带宽)。
DRAM 系统带宽趋势
图:系统级带宽趋势——BW = Gbps/pin × #pins;HBM 凭 1024 pin 突破 1 TB/s。
DRAM 工艺节点路线图
图:DRAM 微缩路线图——1x/1y/1z/1a/1b/1c 与容量(16→32Gb)、速度(2.9→7.2 Gbps)演进。

5. 1T1C 单元结构 P2 00:27:01

1T1C = 1 晶体管 + 1 电容 = 1 bit。电路要素:Word Line(WL)控制存取晶体管栅极;Bit Line(BL)为数据通路(每个单元只接一条位线);存取晶体管(NMOS);单元电容 CS,其一端为存储节点 SN(存放电荷),另一端为所有单元共享、电位恒定的公共板(Plate Line)。数据表示:VSN = VDD 为 "1",VSN = 0 为 "0"。

电容实际尺寸远大于晶体管,垂直堆叠在晶体管上方,并折成圆柱(cylinder)形以增大极板表面积(C ∝ 表面积)。版图上 BL 接触位于两条 WL 之间("2 Transistors on 1 Active"),TEM 剖面可见高耸密集的电容阵列在上、单元晶体管在下、外围电路晶体管在旁。

DRAM 芯片 TEM 剖面
图:20 nm 级 DRAM 芯片剖面——示意图 vs TEM 实照,堆叠圆柱电容立于晶体管上方。
1T1C 单元端子定义与版图
图:1T1C 单元细看——WL/BL/SN/公共板端子定义 + 版图俯视与剖面 SEM。

6. 读操作:电荷分享与感测裕量 ΔV(核心公式) P2 00:33:16

读 "1" 流程:① BL 预充到 ½VDD(与 SRAM 预充 VDD 不同);② WL 升压至 VPP > VDD,保证存取管栅过驱动充分、导通电阻低;③ VSN=VDD > VBL=½VDD,电荷从 SN 流向位线寄生电容 CBL;④ 达到等电位稳态。

电荷守恒:C_SN·V_DD + C_BL·(V_DD/2) = (C_SN + C_BL)·V_BL_new,由此得感测裕量公式(作业与考试必考)

ΔV_BL = V_BL_new − ½V_DD = [1 / (1 + C_BL/C_SN)] · (½V_DD)

比值 CBL/CSN 决定一切:要增大 ΔV 需 CSN 大、CBL——这正是必须做高圆柱电容维持足够 CSN 的原因。读 "1" 时 ΔV 为正,读 "0" 时 BL 向 SN 放电、ΔV 为负,靠正负判别数据。

易错点:BL 预充在中点 ½VDD 的原因——事先不知道单元存的是 0 还是 1,置中可使读 1 / 读 0 的感测裕量与速度对称。

电荷分享延迟 P2 00:44:46:把存取管视作沟道电阻 RT 的 RC 电路,回路内 CS 与 CB 串联:τ = R_T · C_S·C_B/(C_S + C_B),电荷分享延迟 T_d ≈ 2.3τ(达到摆幅 97%)。要快就要小 RT——再次解释 WL 升压 VPP 的必要性。

电荷分享与 ΔV 公式手写推导
图:电荷分享与 ΔV 核心公式(含教授手写推导:C_BL↓、C_SN↑ → ΔV↑,读 0 波形)。
电荷分享延迟时间 RC 模型
图:电荷分享延迟——τ = R_T·C_S·C_B/(C_S+C_B),T_d ≈ 2.3τ。

7. 破坏性读出、灵敏放大器与完整读写时序 P2 00:47:32

DRAM 读是破坏性的:电荷分享后 SN 电压已从 VDD 跌落,必须在读操作内把 "1" 恢复回 VDD,称 restore / write-back(写回),由灵敏放大器自动完成。灵敏放大器是交叉耦合反相器锁存,两输入为 BLt(true)与 BLc(参考),由 SAEN 控制上拉/下拉接通:开启后高侧(½VDD+ΔV)被拉到 VDD、另一侧放电到 0;因 WL 仍开启,电流反向把 SN 充回 VDD。最新 1z/1a/1b 节点的量产灵敏放大器与此教科书设计基本相同,仅各加两管做失调消除(offset cancellation)。

完整读 = 三阶段 P2 00:53:16:Charge Sharing(WL 开启、ΔV 建立)→ Write-back(SAEN 开启、SN 恢复)→ Precharge(关 WL、均衡 BL 回 ½VDD)。字线摆幅很大:待机时 VBBW < 0(负字线抑制亚阈值泄漏),激活时升至 VPP。

外围电路三模块 P2 00:54:47:Equalize(EQL 控制的 3 管预充均衡,强制 BL 到 ½VDD)、Sense(交叉耦合锁存 + NSET/PSET)、Connect(CSL 控制的传输门,把 BL 接到 LDQ 数据总线)。CSL 的开关频率就是 ~200 MHz 内部时钟。

时序参数(数据手册定义,典型值在先进节点亦变化不大) P2 00:58:31:tRCD(行到列延迟)≈ 15 ns;tRC(行周期)≈ 40–50 ns;信号建立 3–4 ns;灵敏放大器置位 3–4 ns;恢复 "1" 6–7 ns;CSL 脉冲 2–3 ns。CSL 5 ns 节拍是 DRAM 内部时钟约 200 MHz 的根源。

差分参考的来源 P2 01:06:08:每个 DRAM 单元只有一条位线(无 bit-bar),参考 BLc 取自另一(空闲)子阵列——只激活一个阵列,另一个的位线天然保持 ½VDD(开放位线思想,见第 11 节)。写操作则很直接:把 BL 驱到 VDD/GND,开 WL 复制到 SN——读才是 DRAM 真正棘手的部分。

写回过程与交叉耦合灵敏放大器
图:写回过程——交叉耦合锁存灵敏放大器与 SAEN 开启后的波形。
完整读操作三阶段波形
图:Entire Read 三阶段波形——Charge Sharing / Write-back / Precharge,V_BBW<0 与 VPP 标注。
完整读写周期时序图与典型时间参数
图:完整读写周期控制信号时序 + 典型时间参数(t_RCD≈15ns、t_RC≈40–50ns、CSL→200 MHz)。

8. 泄漏机制、数据保持与刷新开销 P2 01:08:47

DRAM 之所以叫 "Dynamic",是因为存在泄漏使 SN 电荷流失。存 "1"(SN=VDD)有四条泄漏路径 P3 00:02:42:① p/n 结反偏泄漏;② GIDL(栅致漏极泄漏);③ 亚阈值泄漏 Ioff;④ 电容介质泄漏(缺陷少时可忽略)。考虑泄漏后的感测裕量公式:

ΔV_BL = [1/(1+C_B/C_S)] · (½V_DD − I_L·t_RET/C_S)

第二项是泄漏电荷除以存储电容造成的电压衰减——保持到 tRET 时读出的起始电压已从 VDD 下降。该公式把器件泄漏与电路感测裕量直接关联,是所有微缩设计指标的出发点(实际设计要求 ΔV ≥ 200 mV 以克服工艺涨落与感放失调)。

GIDL 物理 P3 00:07:45:当 VGD<0 时栅-漏交叠区能带强烈弯曲,价带电子直接带带隧穿(BTBT)到导带产生电子-空穴对,形成漏→衬底泄漏。保持模式下 WL=0(实际 −0.5 V)、SN=VDD 恰满足 GIDL 条件;负字线虽抑制 Ioff 却加剧 GIDL。

易错点:存 "1" 比存 "0" 更难保持——存 "1" 时 GIDL、亚阈值泄漏、结泄漏三路同时放电;存 "0" 时这些条件多不满足,Ioff 甚至从 BL(½VDD)向 SN 充电。retention 测试因此重点关注 "1"。另一个常见误解:刷新由"读"完成而非"写"——读操作内建写回,refresh = 定期对每行做读。

保持时间与 64 ms 标准:实际保持时间数十 ms 到秒级、片内差异极大;保持时间分布(CDF)显示仅极少数尾部位(tail bits)低于 64 ms,但可能超过 ECC 能力,故 JEDEC 统一规定 64 ms 刷新周期

刷新开销算例 P2 01:11:46:N=16k 行、tRC=40 ns、tREF=64 ms → 相邻行刷新间隔 = 64 ms / 16k = 4 µs;刷新时间占比 = 40 ns / 4 µs ≈ 1%。若刷新周期缩到 32 ms 则开销升至 2%。随密度增大刷新开销上升(现约 8–10%;O. Mutlu 曾预测 64 Gb 时代达 46%,实际靠多 Bank 划分缓解),能量开销典型约 15%。

刷新周期计算例题
图:刷新周期计算——16k 行、t_RC=40ns、t_REF=64ms → 行间隔 4 µs、开销约 1%。
四种泄漏机制与感测裕度公式
图:四种泄漏机制(结泄漏/GIDL/亚阈值/介质泄漏)+ 考虑泄漏的 ΔV_BL 公式。
GIDL 机理:能带图与 BTBT
图:GIDL 机理——栅漏交叠区能带图、带带隧穿与实测 ID-VG(VGS<0 区电流回升)。

9. 动态保持干扰与 Row Hammer P3 00:15:06

静态保持:单元待机且邻近无操作,泄漏 = 结泄漏 + GIDL。动态保持:本单元保持、相邻行正被操作(邻行字线抬到 VPP)——相邻字线间电容耦合使本行字线电压瞬时抬升 ΔV,在 log ID-VG 上 Ioff指数式放大,受害单元(victim cell)保持时间缩短。注意电容只在电位切换时传导瞬态电流,静态(电位恒定)无串扰。

Row Hammer(行锤):存储系统安全领域的著名攻击——反复读/写同一行(像锤子敲打),通过字线耦合干扰使相邻行数据翻转。Row hammer 与短沟道效应一起限制了字线间距的进一步缩小(见第 13 节)。

动态保持模式与 Row Hammer
图:静态 vs 动态保持模式对比、victim cell 与 Row hammer 效应。

10. 单元电容:沟槽 vs 堆叠与电容工艺微缩 P3 00:21:51

沟槽电容(Trench):先在硅衬底刻深沟槽、覆介质、填 N+ 多晶硅内电极,电容埋于硅内、晶体管后做。70 nm 节点后停产——只能做 8F² 版图、深沟槽内沉积高 K 极难、深宽比过高(末代已达 90:1)。残存用途:eDRAM(与逻辑工艺兼容,IBM Power 系列曾用)。

堆叠电容(STC,现行主流) P3 00:26:16:先做晶体管,再在接触孔上方堆叠圆筒电容。优点:易沉积高 K MIM、支持 6F²;挑战:机械稳定性、热预算受限(电容工艺 700→450°C)。三大厂 2010 年完成向 6F² 开放位线转换。讲者总结:"堆叠电容让前道简单、后道复杂;深沟槽 100% 后道兼容逻辑工艺,但沟槽本身工艺复杂"。

电极/介质演进 P3 00:55:16:SIS(双多晶硅)→ MIS(金属顶电极 + HSG 粗糙底电极)→ MIM(双金属 TiN 电极,介质 Ta₂O₅/Al₂O₃/HfO₂ → 今天主流 ZrO₂,k≈40,约为 SiO₂ 的 10 倍)。圆筒电容 C = εA/t,A = πD·H;缩放使 D 减小,三条对策:①升 ε(高 K);②增 H(越堆越高);③介质厚度 t 已不能再减(直接隧穿泄漏限制,对带隙 Eg 指数敏感——k 与 Eg 成反比折衷,最佳区 k≈20–40、Eg≈5–6 eV,HfO₂/ZrO₂ 胜出)。

核心结论(CSN 为何不能缩放) P3 01:01:13:每条位线的单元数跨代恒定(512–1000),线间距缩小使单位长度耦合电容上升、与长度缩短相抵 → CBL 跨代几乎不变。由 ΔV ∝ 1/(1+CB/CS),CSN 必须维持约 5–10 fF。40 年间几何尺寸缩小逾千倍,电容只允许降 2–3 倍(~25 fF → 5–10 fF)——这是 DRAM 电容制造的核心挑战,也是电容必须"越长越高"的根本原因。

EOT 与深宽比:EOT =(εSiO2r)·tox,今天约 3–5 Å。电容形状从圆筒(U 形薄壁)转向柱状(Pillar,实心柱),省去存储节点电极厚度项支持继续缩放;柱状电容深宽比逼近 100(底部 12 nm、高约 1.2 µm,"像摩天大楼"),20 nm 级起引入机械支撑层(MESH)防倒塌。各代堆叠电容参数(Kinam Kim, ISSCC 2015):

节点深宽比 A/R介质电容 CS
90 nm10Al₂O₃(28 Å)>25 fF
65 nm15ZrO₂(14 Å)>25 fF
45 nm20ZrO₂(10 Å)>20 fF
3x nm34ZrO₂(8 Å)>15 fF
2x nm50ZrO₂(6 Å)~10 fF
2y nm80Multi-Stack>5 fF

20 nm 以下:柱状 SN、EOT 3–4 Å、介质物理厚度 ≤90 Å、A/R 约 75–135、电容泄漏电流密度 <1E-7 A/cm²。

堆叠 vs 沟槽电容对比表
图:Stacked vs. Trench 逐项对比——堆叠在泄漏、速度、MIM、6F² 可缩放性上占优。
DRAM 电容缩放路线图(EOT)
图:电容缩放路线图——SIS/MIS → MIM 圆筒(HfO₂/Al₂O₃)→ ZrO₂ → MIM 柱状 + 超高 K,EOT 降至 3–5 Å。
各代堆叠电容技术参数总结表
图:90nm→2ynm 各代堆叠电容技术参数总结(A/R、介质、CS、泄漏要求)。

11. 阵列架构与版图:折叠/开放位线、8F²→6F²→4F² P3 00:28:45

阵列尺寸约束:位线长度受感测裕量限制(典型每位线 512–1000 单元),字线长度受 RC 延迟限制。两种差分感测架构:

8F²6F²4F²
感测方式折叠开放开放
晶体管常规直沟道有源区/沟道相对字线倾斜垂直晶体管
单元尺寸4F×2F3F×2F2F×2F
感放间距4 BL pitch2 BL pitch
状态噪声免疫好但单元大,已停产当今工业主流研发中

6F² 为何要斜沟道:若沟道平行于位线,电容正上方与位线冲突无法"立起来";倾斜让位线接触与存储节点错位,堆叠电容才能站立。这种密集布线在逻辑设计规则下是"Mission Impossible",是 DRAM 专属工艺。真实 6F² 三种流派 P3 00:45:10:Samsung(斜有源区,3F BL 间距 / 2F WL 间距);Qimonda 埋入式字线 bWL(TiN 金属栅埋入硅内,WL-BL 交叠电容低、直线条光刻简单——对产业影响重大,该公司研究员还在 DRAM 高 K 研究中发现了掺杂 HfO₂ 的铁电性);Micron 扭曲位线(有源区图形连续利于光刻,未用于今日量产)。

讲者强调:像 SRAM 版图一样,DRAM 的 8F²/6F² 版图必须看懂——作业和考试会考(8F² 中位线接触由两个单元共享、4F×2F 虚线框的推导;6F² 的 3F×2F 推导)。
折叠 vs 开放位线阵列架构
图:折叠 vs 开放位线阵列(板书标注 staggered cell、8F² 推导、感放共享)。
8F²/6F²/4F² 面积因子对比表
图:Layout and Cell Area Factor——8F² / 6F² / 4F² 三栏对比总表。

12. 存取晶体管演进与位线电容削减 P4 00:08:55

DRAM 存取晶体管与逻辑晶体管是"完全不同的动物":为数据保持优化超低漏电,要求 Ioff < 1 fA/µm(比低功耗逻辑晶体管低 3–4 个数量级);只用 NMOS;承受 VPP≈1.8 V 过驱动故栅氧更厚;性能仅相当于约 65 nm 时代的老逻辑晶体管。结构演进路线 P4 00:13:26

位线电容削减 P4 00:01:18:感测裕量 ~ CS/CBL,CBL 构成(IEDM short course 2011 饼图):BL-to-WL 47% + BL-to-SN/板极 47% + BL-BL 4% + BL-衬底 2%。两大对策:Air Gap(空气隙) P4 00:06:20——在位线与存储节点之间刻出空洞(ε≈1,介电常数下限的"终极方案"),sub-20nm 节点起采用,削减 BL-to-SN 分量;埋入式字线削减 BL-to-WL 分量。

Air Gap 空气隙降低位线电容
图:Air Gap——位线侧壁空气隙(TEM),sub-20nm DRAM 采用。
存取晶体管微缩路线图
图:存取晶体管演进路线——Planar → RCAT → Saddle FinFET → Buried Gate →(Vertical Gate)。
DRAM Scaling Trend 双轮驱动
图:DRAM 微缩"双轮驱动"——电容更高深宽比创新 + 晶体管更低漏电创新(IEDM 2019)。

13. 2D 微缩极限与 sub-10nm 路线:4F² 垂直晶体管与 3D VSDRAM P4 00:21:53

6F² 已经"失效":20 nm 以下,低电压短沟道效应 + Row Hammer 使字线不能靠得太近,有源岛被迫更平行于位线,实际单元面积按 F² 计不降反升——Samsung 单元面积从 D2x 的 ~6.4F² 升到 D1z 的 ~8F²(0.00197 µm²,F≈15.7 nm)。课程约定:作业与考试仍按 6F² 计算,但要知道最新产品并非如此。两条出路:

路线一:4F² 垂直沟道晶体管(VCT) P4 00:27:30:硅柱 + 环栅(GAA),漏极直连上方电容、源极由下方埋位线收集;俯视只剩 1 WL + 1 BL 各占 2F → 2F×2F = 4F²,是 2D 平面 DRAM 的密度终点。Samsung 2009 年已演示但 10 年无后续——垂直晶体管没有凹陷沟道可用,硅沟道漏电难满足 retention。复兴关键:氧化物半导体沟道(IGZO)——带隙 ~3.2 eV(Si 为 1.12 eV)→ Ioff < 10⁻²⁰ A/µm,比硅低约 4 个数量级。sub-10nm 第一代(0a 节点)可能采用。

路线二:3D 堆叠 DRAM(VSDRAM) P4 00:32:54:把 1T1C 整体旋转 90° 水平放置、垂直堆叠多层——单片(monolithic)3D DRAM,区别于 HBM 的"键合伪 3D"。借鉴逻辑的 Si/SiGe 堆叠纳米片工艺与 3D NAND 的 bit-cost-scalable 原则(多层一次沉积、一次光刻、一次刻蚀,否则成本随层数线性上升毫无意义)。阵列取向:垂直 BL 优于垂直 WL——阶梯位线使各层 CBL 不同、感测裕量不均。SK Hynix VLSI 2024 已演示 5 层 VSDRAM 原型(垂直位线 + 双栅水平晶体管 + 水平圆柱电容,外围电路另置一片晶圆混合键合)。盈亏平衡分析(教授估算):水平放置的 ~1 µm 长电容占位巨大,需堆叠 64–100 层量级才能在面积上打平 2D;若水平电容能缩到 ~100 nm,平衡点可降到 8–16 层(开放研究问题)。Micron 有上千人投入 3D DRAM——"DRAM 将追随 NAND 走向 3D"。

sub-10nm DRAM 展望:4F² VCT 与 VSDRAM
图:sub-10nm 展望——8F²→6F²→4F² VCT / VSDRAM 两条路线 + IGZO 参数(Eg~3.2 eV,Ioff<10⁻²⁰ A/µm)。
VSDRAM 单元构成与对比表
图:VSDRAM——水平 1T1C 堆叠结构 + 常规 vs VSDRAM 对比(Samsung VLSI 2023)。
SK Hynix 5 层 VSDRAM TEM 截面
图:SK Hynix 5 层 VSDRAM 原型 TEM/EDS 截面——双栅晶体管 + 水平电容(电容偏短,初版未定稿)。

14. 先进封装:TSV、2.5D/3D 集成与混合键合 P4 00:51:24

TSV(硅通孔)取代稀疏的引线键合实现高密度垂直互连。六步简化流程:通孔刻蚀 → 介质层 → 阻挡层(TaN,防铜扩散)+ 种子层 → 电镀铜 → CMP 平坦化 → 背面减薄露出通孔。典型参数 P4 00:53:41:电阻 0.01–0.1 Ω;电容 50–500 fF(显著的 RC 寄生);间距 10–50 µm(典型 ~20 µm);直径 5–25 µm;深宽比 5–20。

集成形态 P4 00:57:01

系统形态演进 P4 01:06:18:今日 2D(片上 SRAM + 片外 DIMM,64 bit)→ 今日 2.5D(HBM + 中介层,1024 bit 宽接口)→ 明日 3D(DRAM 直接堆在处理器上,尚不存在)。主要障碍是:处理器热量传入 DRAM 使漏电上升、retention 急剧恶化;3D 系统的永恒矛盾是"如何把电送进去、把热抽出来"(供电自下而上、散热自上而下,中间层最难散热)。

2.5D 到 3D 集成三种形态
图:从 2.5D(硅中介层)到 3D 集成——TSV + micro-bump(20–30 µm)与 hybrid bonding(<5 µm)。

15. HBM 高带宽存储器 P5 00:00:03

结构:HBM = 多层 2D DRAM die 经 TSV + 微凸点垂直堆叠,最底层是 base die(逻辑 die),集成 I/O 接口、PHY、时序与调度电路。HBM 栈与 GPU 经硅中介层水平互连,由 TSMC CoWoS 技术完成集成(存储厂造 HBM 栈、TSMC 造 GPU 并做晶圆级集成)。TSV 三类用途:信号、供电、热 TSV(导热)。核心接口特征:Wide I/O 1024 bit(DDR 仅 64 bit)——走"低速 pin × 超多 pin"路线。

GDDR5 vs HBM 系统级对比(Samsung IEDM 2019)P5 00:06:25

项目GDDR5HBM
系统尺寸60×52 mm(处理器 + 12 颗 G5)33×24 mm(处理器 + 4 栈)
封装面积3120 mm²792 mm²(约 −75%)
总容量12 GB16 GB(1.3×)
带宽384 GB/s1024 GB/s(3.6×,约 1 TB/s)
功耗(仅存储)18.3 W9.1 W(能效 +18%)
每 pin 速率8 Gbps2 Gbps
I/O 数每芯片 32(共 384)每 cube 1024(共 4096)
易错点:首款集成 HBM 的 GPU 是 AMD(Fiji / Radeon R9 Fury X:HBM1×4 栈、4096-bit、512 GB/s),不是 NVIDIA。NVIDIA 随后采用:V100 用 HBM2(16/32GB、900 GB/s);H100 用 6 个 HBM3 栈(96 GB、3.36 TB/s)。1 万亿参数 LLM ≈ 1 TB,单卡 96 GB 装不下——HBM 容量直接决定 AI 系统规模。

各代规格(SK Hynix VLSI 2022)P5 00:12:18。提升的两条途径:单 die 密度随工艺微缩提升;堆叠层数(Hi)增加(4-Hi → 8-Hi → 12-Hi):

项目HBM1HBM2HBM2EHBM3
发布年份2013201620202022
单 die 密度1 Gb8 Gb16 Gb16 Gb / >16 Gb
堆叠层数4 Hi4/8 Hi4/8 Hi4/8/12 Hi
单 cube 容量4 GB8 GB16 GB>16 GB
IO 数据率1.0 Gbps2.0–2.4 Gbps2.8–3.2 Gbps4.0–6.4 Gbps
最大带宽/cube128 GB/s~307 GB/s~409 GB/s~819 GB/s
总 I/O 数1024(8Ch×128)1024(8Ch×128)1024(8Ch×128)1024(16Ch×64)
微凸点数 / 间距4942 / 96×55 µm4942 / 96×55 µm6303 / 96×55 µm7775 / 96×110 µm
vDDC/vDDQ · vPPE1.2 V · 2.5 V1.2 V · 2.5 V1.2 V · 2.5 V1.1 V · 1.8 V

总趋势:每 2 年容量与带宽各提升约 1.5 倍HBM4 前瞻 P5 00:18:34:16-Hi 堆叠;I/O 翻倍到 2048;微凸点(~30 µm 间距)改为 Cu-Cu 混合键合(<5 µm)。

封装工艺 P5 00:16:05:via-middle TSV + 双面微凸点 + Chip-to-Wafer 堆叠,晶圆级 KGSD 测试。热管理 P5 00:19:40:热源是 SoC 与 base die(DRAM die 本身发热不多);高温使漏电增大 → retention 随温度退化 → 须更频繁刷新。缓解:裸露硅封装、热假凸点/高导热填充、散热器 + TIM、液冷;"Many TSVs are thermal TSVs",系统级热协同设计至关重要。

HBM 结构总览
图:HBM 结构——DRAM die 堆叠 + base die + TSV + 硅中介层,Wide I/O 1024-bit(ISSCC 2016)。
搭载 HBM 的 GPU 产品演进
图:搭载 HBM 的高端 GPU——AMD Fiji(首款)、NVIDIA V100、H100(96GB、3.36 TB/s)与趋势。
HBM 各代规格表
图:HBM Specs——HBM1/2/2E/3 全规格对比(SK Hynix VLSI 2022)。
HBM4 前瞻
图:HBM4 前瞻——16H 堆叠、2K I/O、Cu-Cu 混合键合。

16. eDRAM 与无电容 DRAM P5 00:22:31

eDRAM 是集成在处理器芯片上(on-chip)的 DRAM,目标是填补 SRAM 与 DRAM 之间的鸿沟——两者单元面积差 20–30 倍、随机访问速度差 50–100 倍。eDRAM 比 SRAM 小、比 DRAM 快。集成难点:独立 DRAM 的堆叠电容立在器件上方,与需要 15–16 层金属布线的逻辑工艺不兼容。

IBM SOI 深沟槽 eDRAM P5 00:25:06:深沟槽电容先做、晶体管后做,与逻辑 FEOL/BEOL 完全兼容,仅 +3 道掩膜。45nm 数据:单元 0.067 µm²(≈32F²,大于独立 DRAM 的 6–8F²,但远小于同节点 SRAM 的 ~160F²);保持时间仅 45 µs @105°C(用的是普通逻辑晶体管而非低漏电存取管,对比独立 DRAM 的 64 ms)。商用于 Power 系列处理器的 L3 缓存(行周期 ~2 ns,达不到 L1/L2 但密度高):

IBM Power8IBM Power9
eDRAM 工艺22nm 平面 HK-MG SOI14nm HP FinFET HK-MG SOI
单元面积 / 归一化0.026 µm² / 54F²0.0174 µm² / 89F²
存储节点电容(估计)~12.2 fF~8.1 fF
L3 缓存密度11.9 Mb/mm²13.28 Mb/mm²

Intel eDRAM(22nm FinFET + 堆叠电容 COB) P5 00:30:09:单元 0.029 µm²、1.05 V;第 1 代 2 GHz / 随机周期 3 ns / 保持 100 µs @95°C,第 2 代 5 ns / 300 µs。电容纵横比仅 5–8(独立 DRAM 为 50–70)。结局:只发论文、从未用于任何产品。2020 年后已无商用 1T1C eDRAM——保持太短、刷新开销太大。

无电容方案一:1T 浮体 eDRAM P5 00:33:44:SOI 晶体管体区悬浮,写入时碰撞电离/BTBT 产生的空穴积累在浮体中 → 体电位升高 → Vth 下降 → 读电流大("1");空穴复合后消失,需刷新。无电容易集成,但干扰与保持设计难,仅停留在概念。

无电容方案二:2T 增益单元(Gain Cell,近年热门) P5 00:37:14:写晶体管向存储节点注入电荷,读晶体管的栅接存储节点,靠读管跨导放大读出(非破坏性读)。突破在于用氧化物半导体(IGZO/IWO)做写管——关态漏电比硅低数个数量级,保持时间从百微秒级跃升到秒级以上:

Gain Cell 类型2T (Si)2T (IGZO)2T (IWO)
VDD1.2 V1.2 V1.0 V
密度 (Mb/mm²)480180
BEOL 兼容 3D 堆叠
保持时间 (ms @85°C)0.110⁷10³
访问时间 (ns)1.6303
破坏性读出

作为最后一级缓存(LLC)时数据本来就频繁更新,秒~分钟级保持意味着几乎不需要刷新。垂直 CAA 双管堆叠可缩到 4F²,密度甚至可超 3nm 节点 SRAM;挑战是氧化物晶体管的稳定性/可靠性。Macronix 还提出 2T 增益单元 3D 堆叠 DRAM(VLSI 2024)与栅控晶闸管(GCT)3D DRAM(IEDM 2022/2023)——"这是 DRAM 研究的黄金时代"。

IBM SOI 深沟槽 eDRAM
图:IBM SOI 深沟槽 eDRAM——0.067 µm²@45nm、+3 道掩膜、保持 45 µs@105°C。
2T 增益单元 eDRAM 与 IGZO/IWO 对比
图:2T 增益单元——电路、BEOL 3D 阵列、垂直 CAA 4F² 结构与 Si/IGZO/IWO 对比表(IEDM 2020)。

17. DRAM 展望(章节总结) P5 00:46:25

  1. DRAM 不可替代:没有任何现有或新兴存储器能同时具备 DRAM 的访问速度(几 ns 至几十 ns)、低成本(6–8F² + 单 die ~32 Gb)与无限耐久三者;可预见的未来 DRAM 无法被取代。
  2. HBM 是 GPU 与 AI 硬件的使能者:更大容量与更高带宽靠多层 DRAM 的 3D TSV 集成(HBM)解决。
  3. sub-10nm DRAM 处于转折点:沿 3D NAND 路径的 3D 垂直堆叠 DRAM 预计 3–5 年内出现技术突破;过渡步骤可能是用垂直沟道晶体管(或 IGZO)把 6F² 缩到 4F²。
  4. eDRAM 新形态(如 2T 增益单元)有望实现与逻辑工艺兼容的 GB 级最后一级缓存。
DRAM Outlook 总结页
图:DRAM Outlook——整个 DRAM 章节的四点结论。

本讲要点总结

术语表

英文术语中文解释
DRAM (Dynamic Random Access Memory)动态随机存取存储器用 1T1C 单元存数据、需周期性刷新的易失性主存。
1T1C一晶体管一电容DRAM 基本存储单元:1 个 NMOS 存取管 + 1 个存储电容 = 1 bit。
Refresh刷新周期性(JEDEC 64 ms)对每行执行读操作以恢复单元电荷,开销约 1%。
Destructive read破坏性读电荷分享感测会破坏单元原数据,必须随后写回。
Write-back / Restore写回 / 恢复灵敏放大器把 SN 电压充回 VDD 的过程,属于读操作的一部分。
Retention time数据保持时间泄漏导致数据丢失前可保持的时间,几十 ms 至秒级,随温度升高退化。
Tail bits尾部位保持时间分布中最差的极少数单元,决定 64 ms 刷新规格。
F² (feature size squared)特征尺寸平方以特征尺寸 F 的平方衡量单元面积:SRAM ~140F²,DRAM 6–8F²。DRAM 的 F = M1 半节距,是真实尺寸。
Channel / DIMM / Rank / Bank / Mat通道 / 内存条 / 列组 / 存储库 / 子阵列DRAM 子系统自顶向下的组织层级;Bank 是可独立传输数据的最小单位,Mat 为 Bank 内约 1k×1k 的基本阵列块。
Row buffer行缓冲阵列边缘的灵敏放大器阵列,暂存被激活整行(如 2kB)数据。
BLSA / SWD位线灵敏放大器 / 子字线驱动器Mat 的组成电路:感测放大位线信号 / 驱动局部字线。
DDR (Double Data Rate)双倍数据速率时钟上升、下降沿都传数据的 DRAM I/O 协议,每代 I/O 时钟翻倍。
Prefetch / Burst预取 / 突发内部以 200 MHz 并行取出 2/4/8 倍数据,I/O 端高速串行突发输出。
CSL (Column Select Line)列选择线列访问选通脉冲(2.5 ns 脉宽 + 2.5 ns 间隔 = 5 ns),决定 ~200 MHz 内部时钟。
JEDEC联合电子器件工程委员会制定 DRAM 接口/刷新等行业标准的组织。
IDM (Integrated Device Manufacturer)整合器件制造商设计到制造全自营的厂商模式;DRAM 三大厂均如此,无 DRAM 代工厂。
LPDDR / GDDR低功耗 DDR / 图形 DDR分别面向移动(功耗优先)与图形(性能优先,短位线短字线)的 DRAM 产品。
Word Line (WL) / Bit Line (BL)字线 / 位线行选择线(控制存取管栅)/ 单元与灵敏放大器间数据通路(DRAM 单元只接一条 BL)。
Storage Node (SN) / Plate Line存储节点 / 公共板电容存电荷的一端(VDD=1,0V=0)/ 所有单元共享、电位恒定的另一端。
Charge Sharing电荷分享读操作中 SN 与位线寄生电容间的电荷再分配,产生感测信号 ΔV。
Sense Margin (ΔV_BL)感测裕量电荷分享后位线偏离 ½VDD 的电压 = ½VDD/(1+C_BL/C_SN),需 ≥200 mV。
Sense Amplifier / SAEN灵敏放大器 / 使能信号交叉耦合锁存,差分放大 ΔV 并完成写回;SAEN 开启前锁存浮空。
Offset Cancellation失调消除最新节点灵敏放大器增加的两对晶体管,补偿差分对失配。
VPP / V_BBW字线升压 / 负字线电压激活时字线升至高于 VDD 的电压(~1.8 V,降低导通电阻);待机时低于地(抑制亚阈值泄漏)。
Equalizer / Precharge均衡 / 预充电路EQL 控制的 3 管电路,把 BLt/BLc 短接并预充到 ½VDD。
t_RCD / t_RC行到列延迟 / 行周期时间WL 开启到可开灵敏放大器(~15 ns)/ 完整读+写回+预充周期(40–50 ns)。
GIDL (Gate-Induced Drain Leakage)栅致漏极泄漏V_GD<0 时栅漏交叠区能带强弯导致带带隧穿(BTBT)产生的泄漏,负字线会加剧。
Subthreshold Leakage (I_off)亚阈值泄漏晶体管关断时仍流过沟道的微弱电流;DRAM 存取管要求 <1 fA/µm。
Row Hammer / Victim Cell行锤攻击 / 受害单元反复访问同一行借字线耦合使相邻行数据翻转的攻击;被干扰的单元。
Trench / Stacked Capacitor (STC)沟槽 / 堆叠电容埋入硅内的电容(70 nm 后仅存于 eDRAM)/ 晶体管上方堆叠的圆筒或柱状电容(现行主流)。
Folded / Open Bit-line折叠 / 开放位线差分位线对取自同一阵列(8F²,噪声免疫好)/ 相邻两个子阵列(6F²,当今主流)。
Passing Word Line / Staggered Cell穿越字线 / 交错单元折叠架构中仅穿过不接单元的字线(导致 8F²)/ 隔交点放置单元的布局。
Buried Wordline (bWL / BCAT)埋入式字线金属(TiN)字线埋入硅衬底(Qimonda 提出,32 nm 起现役),WL 总电容降至约 1/3。
RCAT / Saddle FinFET凹陷沟道晶体管 / 马鞍形鳍式晶体管U 形凹槽栅增大 L_eff 降漏电(90nm)/ Recess Gate+FinFET 组合,导通电流 +30%(45nm)。
SIS / MIS / MIM电容电极结构三代双多晶硅 → 金属顶电极+HSG 底电极 → 双金属(TiN)电极,MIM 为现行结构。
High-k Dielectric / ZrO₂高介电常数介质k 远高于 SiO₂(=4) 的介质;现行主流 ZrO₂(k≈40);k 与带隙 Eg 成反比折衷。
EOT (Equivalent Oxide Thickness)等效氧化层厚度把高 K 介质折算为等效 SiO₂ 厚度,今日 DRAM 电容约 3–5 Å。
Aspect Ratio (AR)深宽比电容柱高度 ÷ 直径,今日柱状电容逼近 100,需机械支撑层(MESH)。
Cylinder / Pillar Capacitor圆筒 / 柱状电容U 形薄壁 / 实心柱存储节点;柱状省去 SN 电极厚度项,支持继续缩放。
ALD (Atomic Layer Deposition)原子层沉积能均匀覆盖超高深宽比结构的逐原子层薄膜工艺。
Air Gap / Air Spacer空气隙位线侧壁空洞(ε≈1,介电常数下限),sub-20nm 起用于削减位线寄生电容。
VCT (Vertical Channel Transistor)垂直沟道晶体管沟道垂直于衬底的环栅硅柱晶体管,是实现 4F²(2F×2F)的唯一途径。
IGZO / IWO铟镓锌氧化物 / 铟钨氧化物宽带隙(~3.2 eV)氧化物半导体沟道,I_off 可低于 10⁻²⁰ A/µm,使 4F² 与增益单元复兴。
VSDRAM (Vertically Stacked DRAM)垂直堆叠 DRAM把 1T1C 旋转 90° 水平放置并单片堆叠多层的 3D DRAM 架构。
Bit-cost scalable (BiCS)位成本可微缩源自 3D NAND:多层一次沉积、一次光刻、一次刻蚀,每位成本不随层数线性上升。
Monolithic 3D单片三维集成同一 die 上逐层顺序制造存储阵列,区别于键合堆叠的"伪 3D"(如 HBM)。
TSV (Through-Silicon Via)硅通孔穿透硅片的铜垂直互连:R 0.01–0.1 Ω、C 50–500 fF、间距 10–50 µm、A/R 5–20;含专司导热的热 TSV。
Interposer / CoWoS硅中介层 / TSMC 2.5D 封装承载 GPU 与 HBM 并提供高密度水平布线的硅基板;CoWoS 是其主流集成方案。
Micro-bump / Hybrid bonding微凸点 / 混合键合SnAg 微焊点(20–40 µm 间距)/ 无凸点 Cu-Cu + 介质直接键合(<5 µm,HBM4 采用)。
HBM (High Bandwidth Memory)高带宽存储器多层 DRAM die 经 TSV 堆叠在逻辑 base die 上,1024-bit 宽接口,系统带宽 >1 TB/s。
Base die / Buffer die / PHY基底 die / 物理层HBM 栈底部的逻辑 die,集成 I/O 接口、PHY、时序与调度电路。
eDRAM (Embedded DRAM)嵌入式 DRAM集成在处理器上、与逻辑工艺兼容的 DRAM,定位在 SRAM 与独立 DRAM 之间(曾用作 IBM Power L3)。
COB (Capacitor over Bit-line)位线上方电容电容置于位线之上的单元架构(Intel 22nm eDRAM 采用,未量产)。
Floating body effect浮体效应SOI 体区悬浮、空穴积累抬高体电位使 V_th 漂移;可作 1T 无电容 DRAM,也需 VSDRAM 抑制。
Gain Cell增益单元2T 无电容 DRAM:写管注入电荷、读管跨导放大读出(非破坏性);配 IGZO/IWO 后保持达秒级。
LLC (Last Level Cache)最后一级缓存片上缓存最末级(L3/L4),eDRAM/增益单元的目标应用。
ECC (Error Correction Code)纠错码纠正失效位的冗余编码;尾部失效位数可能超出其能力,故仍需 64 ms 刷新。