Lecture 3:SRAM

ECE 6465 Memory Device Technologies and Applications · Shimeng Yu(Georgia Tech)· 总时长约 5.5 小时 · P1 · P2 · P3 · P4 · P5

1. SRAM 的定位与缓存演进 P1 00:00:39

SRAM = Static Random Access Memory,三个关键词各有确切含义:Static(静态)——不需要周期性刷新(与需要刷新的 DRAM 相对),只要电源在数据就保持;Random Access(随机访问)——给定地址即可独立读写阵列中任意一位(与必须按特定顺序读出的 NAND Flash 相对);Volatile(易失性)——掉电后数据丢失(与非易失存储器相对)。这三个特性确定了 SRAM 在存储层次中的定位:高速、片上、易失的缓存(cache)。

SRAM 缓存的历史演进 P1 00:02:20:缓存逐步从片外移到处理器片上(嵌入式存储器,embedded memory),层级越来越多;最新的 AMD 处理器借助 3D V-Cache 把片上 SRAM 缓存做到 64 甚至 96 MB(见第 20 节)。

年份结构CPU 主频片内缓存容量
1985CPU → L1(片外)→ 主存16 MHz0
1989CPU(含 L1) → L2 → 主存25 MHz8 KB
1999CPU(含 L1+L2) → 主存1 GHz32 KB (L1) + 256 KB (L2)
2011CPU(含 L1+L2+L3) → 主存3.5 GHz256 KB (L1) + 1 MB (L2) + 8 MB (L3)
SRAM Cache Evolution 表,1985–2011 四代架构与频率/容量
图:SRAM 缓存演进(1985–2011)——缓存从片外逐步移入处理器片上并形成多级层次。

2. 6T 单元结构与 Hold / Read / Write 概览 P1 00:03:47

6 管 SRAM 位元(bit cell)= 中间一对交叉耦合反相器(cross-coupled inverters)+ 两个存取管(pass gate)。命名约定:

6T SRAM 单元电路图,标注 PU/PD/PG、N1/N2、BL/WL
图:6T SRAM 位元——反相器抽象图与晶体管级原理图(全讲所有操作分析的电路基础)。

三种操作模式 P1 00:06:54(约定 0 = GND、1 = VDD):

3. 读操作:读扰动、β ratio 与读速度 P1 00:17:57

读路径 = PG1 + PD1 串联(放电电流必须经下拉管汇入真正的地)。把两管近似为电阻,这就是一个电压分压器:放电电流流过时,存 0 节点 N1 的电位高于地——"读 0 时 0 并不是真 0",被抬高一个 ΔV,即读扰动(read disturb)。N1 是 PD2 的栅,V_N1 升高会"半开"PD2 把 V_N2 拉低;若正反馈持续到两线交叉,数据就被翻转,相当于一次误写,必须避免。

因此要求 PD 电阻小(电导大)。晶体管电导 ∝ W/L,由此得 6T 尺寸设计第一条规则(读稳定性约束):

SRAM cell β ratio = (W/L)PD / (W/L)PG —— 要求 PD 强、PG 弱,β ratio 要大,分压效应才能保证读期间 N1 节点抬升足够小。读完关 WL 后,被注入的扰动相当于蝶形曲线分析中的噪声,只要小于噪声容限,正反馈迭代会让状态恢复原值。

Read 操作幻灯片:读时序图、正反馈说明、β ratio 公式与 PG1+PD1 分压简化电路
图:读操作——β ratio 公式与 PG1+PD1 分压等效电路;正反馈使"1"下降,β ratio 决定"0"节点被抬多高。

读速度的一阶估算 P1 00:25:50:放电电荷 = 电容 × 电压变化,

Iread × Δt = CBL × ΔV ,即 Δt = CBL × ΔV / Iread

Read Speed 幻灯片:公式与 50fF/100mV/10uA→0.5ns 算例
图:读速度一阶模型与数值算例(0.5 ns → 约 2 GHz)。

4. 写操作:1→0 先行与 γ ratio P1 00:29:37

写入要翻转数据(例:初始 N1=0/N2=1,写入 N1=1/N2=0),涉及两个翻转。结论:1→0 先发生,0→1 随后

由此得第二条尺寸规则(写能力约束):SRAM cell γ ratio = (W/L)PU / (W/L)PG。γ ratio 可取约 1 仍满足"PG 强、PU 弱"——因为 PU 是 PMOS、PG 是 NMOS,μn > μp,相同 W/L 下 NMOS 驱动力仍更强(65 nm 等老节点 μn ≈ 2μp;先进 FinFET 节点差距已缩小到约 10%)。

讲者强调:"强/弱"指电流驱动能力(current drivability)∝ μ × W/L,不只是 W/L——还要乘迁移率。这也是 γ ratio 能取 ~1 的原因。

写时序图上,N2(1→0)先衰减,足够低后 N1 才开始上升,两线交叉点更靠近 GND 而非 VDD——正因为 1→0 必须先发生。读与写由不同节点发起:读关心存 0 节点的抬升(要最小化),写由存 1 节点的下拉发起(要拉得足够低)。

Write 第二阶段:V_N2 下降使 PU1 导通,N1 被充到 1
图:写操作第二阶段——V_N2↓ → PU1 导通 → V_N1 充到 1;PU2 关断后 N2 经 PG2 放电到 0。
Write 时序图与 γ ratio 公式、PU2/PG2 分压简化电路
图:写时序与 γ ratio = (W/L)PU/(W/L)PG——PG 强度必须压过 PU 才能先拉低"1"。

5. SRAM 阵列与外围电路 P1 00:39:35

m×n 的 6T 阵列:行方向由字线译码器/驱动器选行;列方向每对 BL/BL̄ 接一套外围电路:precharge → column mux → sense amplifier(读路径 → 输出触发器)/ write driver(写路径 ← D_in)

阵列级完整时序图 P1 00:47:31(Ishibashi & Osada 2011)展示读/写周期中 CK、WL、位线、PE、YSR/YSW、SE(SAEN)、Q、D 等全部控制信号——关键约束是 SE 相对 WL 上升沿延迟 Δt,等待 ΔV 建立。

SRAM 阵列与外围电路:阵列框图与 precharge/column mux/sense amp/write driver 晶体管级电路
图:SRAM 阵列组织与外围电路——预充电、列选通、灵敏放大器(带 SAEN 尾管)与写驱动器。

6. 静态稳定性:蝶形曲线与 SNM P1 00:13:05 P2 00:00:03

在 VN1–VN2 平面上画出两个反相器的电压传输曲线(VTC,其中一条需对调坐标轴),得到蝶形曲线(butterfly curve)。两曲线有 3 个交点:两个稳定点(对应数据态 (0,1) 与 (1,0))和中间约 VDD/2 处的亚稳点——任何噪声都会把它推向稳定点之一。从稳定点出发的受扰状态可经两条 VTC 的交替迭代收敛回原点,这就是交叉耦合结构对噪声鲁棒的原因。

Hold 蝶形曲线:两条 VTC、两个稳定点与亚稳点
图:蝶形曲线——两条 VTC、两个稳定点与中间亚稳点;噪声扰动经迭代收敛回稳定点。

静态噪声裕度(SNM):静态分析假设噪声永久存在(最坏情况)。在两个存储节点各串入噪声电压源后 VTC 平移,当两曲线间"无空间"时单元翻转。SNM = 蝶形曲线内可嵌入的最大正方形的边长。计算技巧(作业相关):把坐标轴旋转 45°,求两条 VTC 间的最大距离 D1(即正方形对角线),则 SNM = D1/√2

易错点:SNM 是最大内嵌正方形的边长,有时被错误地定义为对角线。另外,左右晶体管失配(如 Vth 失配)时两个"眼"大小不同:SNM = min[SNML, SNMR](取最坏情况);且不指明时默认 SNM 指 Read SNM——读没问题则保持一定没问题。

Read SNM < Hold SNM P2 00:03:11:读时 pass gate 导通,存 0 节点因 PG/PD 分压被抬高,蝶形曲线"low"端抬离地,可嵌入正方形缩小(经典文献:Seevinck, JSSC 1987;Bhavnagarwala, JSSC 2001)。Read 蝶形曲线的获得:假设 BL/BL̄ 恒为 VDD,只需分析半边 3 管电路(PG、PD、PU),由 KCL 扫描求解,再沿 45° 镜像。

器件设计对 SNM 的影响 P2 00:11:13:β 越大,"low"电平越接近地且 VTC 转换越陡,Read SNM 越大(代价是面积)。28 nm SPICE 仿真:β 从 2→3,SNM 提升约 60–70 mV;VDD 从 0.5 V→1.0 V,SNM 从约 110 mV→212 mV(β=2)。设计经验值:SNM 达 150–200 mV 足够,低于 100 mV 就很棘手——而降功耗要求降 VDD,与噪声裕度需求矛盾。

28nm 仿真:SNM 随 VDD 与 β ratio 变化曲线
图:28 nm 仿真——SNM 随 VDD 与 β ratio 的依赖关系,高 VDD 端趋于饱和。

写静态噪声裕度 W-SNM P2 00:16:35:写偏置(BL=0、BL̄=VDD、WL=VDD)下分析左右两组 3 管曲线,成功写入要求两曲线只有一个交点(目标数据);若噪声平移产生额外交点,写入结果随机 → 写失败。W-SNM = 两曲线(下半平面)间可嵌入的最小正方形的边长,由 PG 与 PU 强度决定。

W-SNM 定义:写偏置电路与单交点曲线、最小正方形
图:W-SNM 定义——写偏置下两曲线只允许一个交点,裕度为可嵌入的最小正方形。

各节点硅实测 P2 00:38:55:65 nm(0.625 µm² cell,SNM≈300 mV@1.2V)→ 32 nm HKMG(0.124 µm²,SNM=220 mV@0.8V)→ 22 nm(0.1 µm²,要记住;SNM=220/180/148 mV @ 0.9/0.8/0.7 V)→ 16 nm FinFET(成组统计曲线)→ <10 nm(0.03 µm²,SNM>100/90 mV @ 0.6/0.45 V)。总趋势:VDD 随节点降低 → 噪声裕度随缩放持续下降,是设计核心挑战。

45/32/22/16nm read 蝶形曲线汇总,噪声裕度随缩放下降
图:缩放汇总——各节点 read 蝶形曲线对比,噪声裕度随工艺缩放持续减小。

7. N 曲线测试法 P2 00:20:28

动机:蝶形曲线只给电压噪声裕度;N 曲线同时给出电压与电流裕度,且兼容在线(in-line)晶圆级测试。测法:读偏置(BL=BL̄=VDD、WL=VDD)下,在存 0 节点接电压源 Vin 从 0 扫到 VDD,测电流 Iin,曲线形似字母 N。

关键点 A–B–P–C–D:B 点(Iin=0,电压由 β ratio 决定)对应蝶形曲线稳定点;P 点(电流峰值)触发正反馈翻转;C 点对应亚稳点;D 点(Vin=VDD)对应另一稳定点。三个裕度定义:

N 曲线可由三管电流合成:KCL 给出 Iin = −(IPG+IPD+IPU),沿轨迹对三管输出特性取 trace 逐点相加即得。

两法比较 P2 00:32:17:本质等价(信息都含于 MOSFET 的 IV 曲线)。蝶形曲线易与设计参数(β ratio)挂钩、更适合刻画失配;N 曲线无需 45° 旋转后处理、直接读出 SVNM/SINM,更适合在线测试,但 SVNM 会略微高估电压裕度。两者画在同一图上时三个临界点对齐。

N 曲线 A/B/P/C/D 关键点物理含义与 SINM/SVNM/SPNM 公式
图:N 曲线的 A–B–P–C–D 关键点与三个噪声裕度定义。
蝶形曲线与 N 曲线同图对齐比较
图:蝶形曲线(左轴电压)与 N 曲线(右轴电流)同图对齐——临界点一一对应。

8. 读写冲突、辅助电路与 8T SRAM P2 00:44:01

读与写的根本冲突:读优化希望锁存强、pass gate 弱(大 β、大 γ);写优化希望存储节点与位线强耦合——pass gate 强、PU 弱(小 β、小 γ)。冲突根源是 pass gate 被读写共享:读电流经 PG 但不许改变状态,写电流也经 PG 却要求足以翻转状态,只能折中。

读优化与写优化系统的完整电路对比
图:READ-OPTIMIZED vs WRITE-OPTIMIZED——共享 pass gate 导致的根本矛盾(H. Pilo, IEDM Short Course 2006)。

辅助电路技术 P2 00:47:43

Write-Assist:负位线 NBL 与 Lower Cell-VDD 两种方案电路
图:写辅助两方案——负位线(增强 PG)与降单元电源(削弱 PU)。

8T SRAM:读写路径解耦 P2 00:58:18:在 6T 基础上加两个串联 NMOS 读缓冲(一管栅接存储节点,一管由新增读字线 RWL 控制),读经专用读位线 RBL 放电;写与 6T 完全相同(原 WL 改称 WWL)。优点:读写可分别优化,读时内部节点不受扰动,Read SNM = Hold SNM。代价:每 cell 多 2 管 + 多一套 RWL/RBL 布线(L. Chang et al., JSSC 2008)。

8T SRAM 电路:读缓冲两管、RWL/WWL/RBL
图:8T SRAM——读缓冲 + RWL/RBL 实现读写解耦,根除共享 pass gate 的冲突。

9. 动态稳定性:DNM、Tcrit 与 Shmoo 图 P2 01:03:16

静态分析的两个理想化假设在真实电路中都不成立:位线预充后是浮空的(不是恒压源),噪声也不会永久存在。动态分析把 V1(t)、V2(t) 映射到 V1–V2 相平面得到轨迹(trajectory):噪声撤去时若轨迹未越过分界线(separatrix,对称单元为 45° 对角线,失配时畸变),正反馈会把状态拉回原点;越过则翻转。是否翻转取决于噪声持续时间与电流幅度

重要结论(讲者反复强调):SNM 是"脉冲时长无限"的 DNM。静态分析对 read/hold 偏悲观(低估裕度——短脉冲噪声超过静态值也可能不翻),对 write 偏乐观(高估裕度——静态说安全,但写脉冲不够长仍会写失败)。真实电路设计关心的是 DNM。
DNM 总览:SNM 对 read/hold 悲观、对 write 乐观
图:DNM 与 SNM 的关系总览——SNM = 无限脉宽的 DNM。

Shmoo 图 P2 01:15:20:流片后在时钟频率 × 电源电压组合下按误码率画 pass/fail 边界。65 nm 示例:约 1.0 V/2.0 GHz 与 0.45 V/240 MHz 两个工作角。判别(课堂问答):高频角失败由写失败主导(时钟太快 TW 不足);低压角失败由读失败主导(VDD 太小读裕度不足)。最新数据(TSMC 5 nm, ISSCC 2020):L1 cache 达 4.1 GHz @ 0.85 V;HD macro 约 2 GHz @ 0.95 V。

Shmoo plot:65nm pass/fail 边界与 5nm 实测
图:Shmoo 图——65 nm 的电压-频率工作窗口与 TSMC 5 nm 实测数据。

10. 单元设计考量:速度、漏电与互连优化 P3 00:02:20

单元级三大设计指标汇总:

SRAM 设计考量表:读延时、漏电、VDD_MIN 公式与 6T 电路
图:SRAM 单元设计考量——读速度 / 漏电 / V_DD_MIN 三栏公式总表。

先进节点读速优化 P3 00:10:36(TSMC 7nm, ISSCC 2017):工艺微缩使字线电阻持续上升。Double WL(M1+M2 两层金属并联布字线,最新节点甚至 Triple WL)可降字线电阻 62%;Flying BL(上层金属跨接位线)把位线电容降到 50–58%。现代 SRAM 设计大量精力花在阵列级/互连级寄生优化。

双字线与飞线位线优化:WL 电阻与 BL 电容改善数据
图:双字线(−62% WL 电阻)与飞线位线(BL 电容降至 50–58%)。

漏电抑制技术 P3 00:14:04:保持态存在三类漏电——亚阈值 IOFFGIDL(栅致漏极漏电,VGS<0 时带带隧穿,可高于 IOFF)、栅隧穿 IG(high-k/metal gate 后已可忽略)。对策:① 电场弛豫偏置——待机时降位线电压、抬虚地(如 1.5V 压差降到 0.5–1.0V),同时抑制多种漏电;② Dual-VT 单元——锁存 4 管用高 VT 切断漏电路径、pass gate 用低 VT 保速度,配合 boosted VDH 补偿稳定性,面积代价仅约 10%。

现实约束(讲者提醒):越先进的节点,设计者越没有自由改 SRAM 单元——单元由代工厂用特殊设计规则深度优化,经 memory compiler 调用;手工 6T 版图只能用逻辑规则,面积不是最优。

11. 6T 版图与 160F² 面积 P3 00:26:46

历史背景:350 nm 以前曾用 poly 负载 4T / TFT 负载等高密度单元(电阻无法关断,有直流漏电、非 rail-to-rail);250 nm 以后 6T 全 CMOS 成为主流——稳定性好、可降压、与逻辑工艺完全兼容。真正的水平缩放指标不是栅长 LG(130→20nm 期间几乎不缩),而是 CPP/CGP(接触栅距):CPP = CT 宽度 + 2×Spacer + LG,每 2 年缩 30%。

现代 6T wide-cell 版图(讲者强调"这页非常重要",考试要求识图)

6T SRAM 版图手写标注版:PD/PG/PU 与存储节点定位
图:6T SRAM 版图(教授手写标注版)——2 CPP × 5 M1 pitch ≈ 160F²,PU 居中、共栅者为 PD。

12. 光刻与图形化:193nm 延寿到 EUV P3 00:40:25

主流光刻长期使用 193 nm(ArF)波长,基础分辨率 Resolution = k₁·λ/NA ≈ λ/2,原理上只能做 ~90 nm 特征,但业界用三类技术把 193 nm 用到了 14 nm 以下:

sub-7nm 节点业界已转向 EUV(极紫外,ASML,波长约 13.5 nm)量产。

SRAM 图形化挑战:分辨率公式、浸没式/OPC/双重图形化与 EUV
图:SRAM 图形化挑战——Resolution = k₁λ/NA 与三种 193 nm 延寿技术、EUV 路线。

13. 单元面积缩放趋势及其饱和 P3 00:51:08 P5 00:10:21

6T 单元面积长期"虔诚地"每 2 年缩 0.5×(Intel:65nm 0.570 → 45nm 0.346 → 32nm 0.171 → 22nm 0.092 µm²),与 CGP × M1 pitch 乘积强相关。但近年明显放缓:14nm 0.0588 → 10nm 0.04 → 7nm 0.0262 → 5nm 0.021 → 3nm 0.0199 µm²——缩放几乎饱和

要记住的数字:最新高密度(HD)6T SRAM 单元约 0.02 µm² ≈ 100 nm × 200 nm。归一化陷阱:若仍按 F=节点数字归一化,3 nm 处会得到 >1000F²——"3nm"早已不代表任何实际尺寸,有意义的是绝对面积(22 nm 及以前 ~160F² 经验值才成立)。

三大厂对比(P5 汇总):5nm 时 SRAM cell ≈ 2 CPP × 6 MMP ≈ 0.021 µm²;Samsung 7nm→5nm 面积不再缩小(0.0262 → 0.0262)——这是引出 GAA、BS-PDN、CFET、DTCO 等"延续缩放手段"的核心动机。

节点Intel (µm²)Samsung (µm²)TSMC (µm²)
14/16nm0.05880.06450.07
10nm0.03120.0400.042
7nm0.02620.027
5nm0.02620.021
SRAM 缩放饱和:14-3nm 数据,3nm 0.0199 µm²
图:SRAM 缩放在近几代放缓(14–3nm)——3nm 约 0.0199 µm²,~0.02 µm² ≈ 100×200 nm。

14. 空间变异性:RDF / LER / WFV 与 HKMG P3 00:58:32

失配使蝶形曲线畸变(SNM 取两眼较小者);阵列统计叠加后开口随样本增多而收窄,低压时更严重——低压 + 变异是先进 SRAM 设计的大挑战。SRAM 对变异特别敏感:① 用最小可行尺寸晶体管;② 读操作不达全逻辑摆幅。变异来源分两类(A. Asenov 框架):空间型(器件间不同):RDF、LER、WFV;时间型(同一器件随时间变):RTN、BTI(见第 15 节)。

RDF 公式与掺杂原子数/σVth 随沟长变化曲线
图:RDF——σVth=(q/C_ox)√(N_a·W_dm/3LW),32nm 节点沟道仅剩 20–30 个掺杂原子。
HKMG 与 EOT 计算:EOT=4×3/24+0.7=1.2nm
图:HKMG 与 EOT 算例——物理厚 3.7 nm 等效电学 1.2 nm,栅漏电低数个量级。

15. 时间变异性:RTN 与 NBTI P4 00:15:38

RTN(随机电报噪声):栅介质中的单个缺陷(如氧空位)随机俘获/释放沟道电子,使漏电流呈两电平开关波形(多陷阱大器件则平均化为普通噪声)。单电子俘获引起的阈值移动:ΔVth,RTN = q / (Weff·Leff·Cox)——与器件面积成反比,尺寸越小越严重。实验(VLSI 2009):W/L 由 180/90 nm 缩至 45/25 nm 时分布出现长尾,部分采样 ΔVth 达数十 mV。

RTN:两电平波形、ΔVth 公式与缩放后的长尾分布
图:RTN——两电平 ΔVth 跳变波形与小尺寸器件的长尾统计。

BTI / NBTI(偏压温度不稳定性) P4 00:22:46:长期老化效应,电压/温度应力下 Vth 随使用时间漂移。NBTI 针对 PMOS(负栅压)、PBTI 针对 NMOS;硅基 HKMG 节点 NBTI 更严重。加速老化测试在高于标称的栅压与高温下拟合经验幂律 ΔVth,NBTI ≈ A·tn 做寿命预测。对 SRAM 的影响:蝶形曲线随应力时间收缩,SNM 不是静态数,会随时间退化——设计须按产品等级(手机 3–5 年 vs 服务器/车规更长)预留寿命裕量。RTN 与 BTI 的区别:RTN 来自初始固有陷阱,BTI 是应力产生的新陷阱。

NBTI 幂律拟合与 SNM 随应力时间退化曲线
图:NBTI——ΔVth≈A·tⁿ 幂律老化与 SNM-VDD 曲线随应力时间(10s→10Ks)的退化。

16. 软错误:辐射、SER 与多位翻转 P4 00:28:16

辐射使 SRAM 数据翻转,来源两类:① α 粒子(封装材料同位素衰变,可屏蔽);② 宇宙射线中子/重离子(无法屏蔽,更严重;高海拔与卫星上通量更高,航天芯片需抗辐射设计)。高能粒子击中硅衬底沿径迹激发电子-空穴对;反偏 PN 结是敏感区——结电场使电荷分离形成光电流(击中中性体区的对会复合,净电流为零)。这是暂时性失效,下次写操作即可恢复,故称"软"错误。

电路建模 P4 00:32:18:把粒子打击等效为挂在存"1"漏端的瞬态噪声电流源 iinj(t)(持续约 10–100 ps、幅值可达 mA 量级),用 SPICE 做动态仿真:电荷不足则沿轨迹恢复,越过 separatrix 则像一次"写入"翻转。

软错误建模为噪声电流:6T+i_inj(t) 电路与恢复/翻转两种波形
图:软错误的噪声电流模型——恢复 vs 翻转取决于注入电荷与节点电容。

SER 缩放趋势 P4 00:37:05:判据是注入电荷是否大于临界电荷 Qs ∝ Cs·(VDD−VT)(SRAM 的 Cs 全是寄生电容)。缩放时敏感结面积变小(收集概率降)与节点电容变小(更易翻)两效应抵消 → SRAM 单元级 SER 大致不变,但系统级随 cache 容量增大而上升。DRAM 的存储电容是专门设计的、基本不随节点缩放 → 单元级 SER 急剧下降。所以今天软错误主要是 SRAM 问题。

多位错误与寄生 BJT 闩锁 P4 00:42:02:一次重离子打击的空穴流经衬底电阻形成 IR 压降、局部抬升衬底电位,开启 P 衬底/n+ 源漏构成的寄生 NPN BJT,使相邻多个存"1"单元同时放电翻转(衬底电位沿途衰减,直到不足以开启 BJT)。多位翻转(MBU)对 ECC 极不利(如 ECC 只能纠同行 2 位却翻了 3 位),且随缩放波及更多单元。对策:冗余设计,或改用 SOI 工艺(消除共享体硅通路,大幅降低错误率,但更贵)。

口误更正:P4 转写文本中的"natural effect"实为 latch-up effect(闩锁效应)——幻灯片标题为"Multi-bit Error and Latch Up Effect"。
多位错误与闩锁:寄生 NPN BJT 导通机制电路与剖面图
图:多位错误机理——衬底 IR 压降开启寄生 NPN BJT,邻近单元连锁翻转(Osada, VLSI Circuits 2003)。

17. FinFET 时代的 SRAM P4 00:49:15

22 nm 节点起平面体硅晶体管被 FinFET 取代:薄硅鳍直立于衬底,栅从三面(两侧+顶)包裹沟道。短沟道效应的本质是漏极对源-沟道势垒的干扰,FinFET 通过几何工程获得更强的栅-沟道耦合与更好的短沟道免疫力。关键公式(考试重点):Weff = 2·Hfin + Tfin(电流沿鳍的三个表面导通);多鳍并联时 Weff = (2Hfin+Tfin)×N,物理占宽 Wphy = N×Pfin(鳍距)。

平面与 FinFET 结构对比,W_eff=2H_fin+T_fin
图:非平面 FinFET——三面栅包裹,W_eff = 2·H_fin + T_fin。

历史与 Intel 22nm 量产 P4 00:54:58:1998 年 Berkeley 胡正明(Chenming Hu)团队发表首个 NMOS FinFET(Lg=30nm);2012 年 Intel 22nm 首次量产(命名 Tri-Gate)。Intel 22nm 实测:鳍宽约 8 nm、鳍高 34 nm → Weff = 34×2 + 8 = 76 nm(课堂手算);栅距 90 nm ≈ 4F(验证 4F 经验规律);SS ≈ 69–72 mV/dec(接近 60 的理论极限)、DIBL ≈ 46–50 mV/V。若鳍距仅 50 nm 则 Weff(76) > Wphy(50)——同样占宽下 FinFET 电流大于平面管。

Intel 22nm Tri-Gate:8nm/34nm 鳍、90nm 栅距、W_eff=76nm 手算、SS/DIBL
图:Intel 22nm Tri-Gate——鳍尺寸 TEM、W_eff=76 nm 手算与 SS/DIBL 指标。

FinFET SRAM 优劣势 P4 01:08:15:优——SS 改善(同 IOFF 下 VTH 更低、读写电流更高)、DIBL 降低(VTC 更陡 → SNM 更大)、变异降低;鳍基本不掺杂,RDF 几乎消失(VTH 改由金属栅功函数设定),但新增鳍 LER 变异源。劣——宽度量化:W 只能取整数根鳍,设计灵活性下降、VTH 工程困难。平面用 W 比实现 PD:PG:PU = 2:1:1,FinFET 改用鳍数实现(PD 2 鳍 : PG 1 鳍 : PU 1 鳍)。

FinFET SRAM 优劣势列表与平面/FinFET 蝶形曲线对比
图:FinFET SRAM 的 Pros/Cons——蝶形曲线眼图明显大于平面(T. Park, IEDM 2003)。

鳍配比设计惯例与各代实例 P5 00:00:03:Intel 22nm 同一工艺提供三种 cell 服务不同 cache 层级;跨厂商通用规则——高密度(HD)cell 永远 1:1:1,高性能/高电流 cell 为 2-2-1(PD 2 / PG 2 / PU 1)。FinFET 优异的短沟道控制使待机漏电比平面降低 4–5 倍,高速单元 1V 下达 4.6 GHz、Vmin 改善约 150 mV。

Intel 22nm 单元面积 (µm²)鳍配比 PD:PG:PU用途
High Density0.0921:1:1L3 等大容量缓存
Standard0.1082:1:1通用
High Speed0.1303:2:1L1 等高速缓存

鳍尺寸缩放规律 P5 00:03:19鳍越来越高、越来越薄、间距越来越小——鳍高增加直接提升单鳍电流(Weff = 2Hfin+Wfin),为后文"鳍减员"DTCO 埋下伏笔。TSMC 5nm 起 PMOS 鳍改用 SiGe 沟道提升空穴迁移率。

节点22nm14nm10nm7nm
Fin height (nm)34374252
Fin width (nm)8866
Fin pitch (nm)60483630
22nm 与 14nm SRAM 照片、鳍尺寸数据表与 TEM 截面
图:Intel 14nm 第二代 FinFET——鳍尺寸缩放表与 22/14nm TEM 截面对比(鳍从梯形变薄变直立)。

18. GAA 堆叠纳米片 P5 00:11:02

FinFET 缩放放缓后,业界再次改变器件结构:Gate-All-Around (GAA) 堆叠纳米片——可理解为把 FinFET 旋转 90° 再水平堆叠,栅从四面完全包裹沟道(FinFET 只有三面),静电控制最优,允许进一步缩短 Lgate/CPP。Samsung 3nm(2023)已量产 GAA;TSMC 与 Intel 在路线图上。

核心特性 P5 00:13:08:① 可堆叠多层沟道,单位占地电流高于 FinFET;② 有效宽度连续可调——教授板书公式 Weff = (D + T) × 2 × N(D 纳米片宽度、T 厚度、N 层数;每层周长 2(D+T))。纳米片宽度由版图光刻定义,可连续设计,摆脱鳍量子化限制。

课堂问答(讲者强调的对比):FinFET 鳍高在同一技术节点内固定(全晶圆一致),电路设计师不可改;而纳米片宽度由版图决定,设计师可自由画——这是 GAA 给 SRAM/逻辑设计带来的根本灵活性。
GAA 特性页:手写 Weff=(D+T)×2×N 公式与不同片宽标注
图:GAA 纳米片特性——Weff=(D+T)×2×N,片宽 15/30/45 nm 可按性能需求连续选择。

工艺流程 P5 00:17:28SiGe/Si 超晶格交替外延(最关键一步)→ 鳍状图形化与 STI → 伪栅 → spacer 与内侧墙(inner spacer)→ 双源漏外延 → 沟道释放(选择性化学刻蚀去除 SiGe 牺牲层,硅沟道悬空)→ HKMG 四面再生长 → MOL/BEOL。SiGe 作牺牲层是因为与硅晶格匹配可外延、且刻蚀液只攻击 SiGe 不攻击 Si。

GAA 堆叠纳米片完整工艺流程 TEM 步骤照片
图:GAA 工艺流程——SiGe/Si 超晶格外延 → 沟道释放 → 栅堆叠再生长。

新挑战 P5 00:23:49:① 多功函数工程更困难——两层硅片之间空间由牺牲层厚度固定,金属栅厚度无法自由调节;② PMOS 迁移率退化——纳米片表面为 (100) 面利于电子、损害空穴(FinFET 侧壁 (110) 反而利于空穴),最新论文提出对 PMOS 做 SiGe 包覆等对策。

19. 背面供电(BS-PDN)与 CFET P5 00:26:17

BS-PDN(背面供电网络):传统芯片 15–17 层 BEOL 金属同时承担信号与电源,布线拥塞。演进路径:FS-PDN(全正面)→ FS-PDN + BPR(埋入式电源轨,电源仍从正面进,中间方案)→ BS-PDN(电源完全从晶圆背面进,正面专走信号)。关键工艺:晶圆背面减薄(数百 µm → 约 1 µm),翻转后在背面做 3–4 层电源金属,用 nTSV(约 90–100 nm 见方的纳米硅通孔)连接正反面。收益:降低 IR drop、缩减标准 cell 高度、缓解正面布线拥塞。Intel 18A 即采用 RibbonFET(堆叠纳米片)+ PowerVia(背面供电)。

BS-PDN 总览:Intel 3 vs 18A、FS-PDN/BPR/BS-PDN 截面对比
图:背面供电总览——FS-PDN / BPR / BS-PDN 三方案与 cell 高度缩减。

散热挑战 P5 00:34:49:传统倒装焊约 95% 热量经厚硅衬底(~750 µm)→ TIM → IHS 散出;BS-PDN 后 die 必须面朝上,硅已减薄到 <1 µm,热量须先穿过导热差的正面 BEOL(约 8 µm 金属/介质混合物)再到额外键合的硅载体晶圆——散热不如传统方案,仍是商业化的首要系统级风险,尚无最终解决方案。

CFET(互补 FET) P5 00:39:59:晶体管演进路线 PlanarFET → FinFET(2011)→ GAAFET(2023,Samsung 3nm)→ CFET(约 2032?)——在纳米片框架内把 NMOS 垂直堆叠在 PMOS 之上。对 SRAM 的意义:利用第三维度,HD SRAM 面积可再缩约 40%(幻灯片 −43.3%)。已有 4 层堆叠的 monolithic CFET 演示,2023 IEDM 上 Intel 与 TSMC 均有论文;教授预计业界 8–10 年内走到 CFET。变异性展望:GAA 沟道厚度由外延(精度高)而非光刻定义,σVt 有望低于 FinFET 延长线(FinFET 在 2nm 节点变异已"失控")。

CFET HD SRAM 版图(面积 -43.3%)与 monolithic CFET TEM
图:CFET——NMOS 叠 PMOS,HD SRAM 面积再降 43.3%;160 nm 高度内 4 层 NMOS + 4 层 PMOS 的实物 TEM。

20. DTCO / STCO 与 AMD 3D V-Cache P5 00:44:22

DTCO(设计-工艺协同优化):协同利用晶体管特性、版图效应与设计规则提升密度。关键数据(TSMC, ISSCC 2021):密度提升中 DTCO 的贡献——10nm 约 1%、7nm >25%、5nm >40%、3nm >50%——"本征缩放"越来越难,DTCO 取而代之成为密度增长主力。

DTCO 对密度增长贡献占比:7nm>25%、5nm>40%、3nm>50%
图:DTCO 对密度提升的贡献占比——3nm 节点超过一半的密度收益来自 DTCO。

实例 P5 00:46:53:通用手段包括单向 M0/M1 布线、COAG(栅接触移到有源区上方省面积)、单扩散隔断、鳍减员(fin depopulation,单鳍电流增强后 4 根鳍减到 3 根)。TSMC FinFlex(N3):标准 cell 可混搭 2-1、2-2、3-2 鳍组合,同一设计中按需选择性能/功耗/密度取向。

指标Intel 7Intel 4缩放比
Contacted Poly Pitch (nm)54/60500.93×/0.83×
Fin Pitch (nm)34300.88×
M0 Pitch (nm)40300.75×
HP Library Height (nm)4082400.59×
Library Height × CPP (nm²)24.4K12K0.49×(面积减半)
Intel 7 到 Intel 4 的 DTCO 对比表与 TSMC FinFlex 混合鳍设计
图:DTCO 实例——Intel 4 鳍减员 4:3 实现库面积 0.49×;TSMC FinFlex 混合鳍 cell。

STCO(系统-工艺协同优化) P5 00:49:16:在 DTCO(从能带结构 → BSIM 模型 → 库单元 → 数字流 → PPAC 输出)之上再加封装层级——多 die 堆叠、die-to-die 互连、PDN 完整性、热与应力(3D-IC flow),输出 PPCF。

AMD 3D V-Cache:SRAM 进入 3D 键合时代 P5 00:51:18:第一代(Zen 3)把 64MB 的 7nm 纯 SRAM die(L3D)以混合键合(hybrid bonding)叠在 CCD(自带 32MB L3)背面,总计 96MB L3;带宽超 2 TB/s,延迟仅增加 4 个时钟周期。L3D 恰好覆盖 CCD 上功率密度低的 L3 区域以规避热问题,CPU 核心上方放结构 die 提供支撑与散热。第二代(Zen 4)底部 CCD 改为 5nm,顶部仍为 7nm SRAM die——证明"SRAM die 与逻辑 die 分离 + 3D 堆叠"是 SRAM 容量扩展的现实路径。

AMD 3D V-Cache 结构:CCD/L3D/结构 die 与 TSV 截面
图:AMD 3D V-Cache——7nm SRAM die 混合键合叠在 CPU die 上,96MB L3、>2TB/s、+4 周期。

本讲收尾(Summary,P5 00:53:00):SRAM 随 CMOS 逻辑工艺"免费"获得;特殊设计规则实现高密度版图;器件参数变异影响单元稳定性且随尺寸/电压缩放恶化;变异与软错误越来越重要。三大趋势:电路+器件联合提升稳定性、DTCO 助力缩放;FinFET SRAM → 堆叠纳米片 SRAM;3D 集成(SRAM die 与逻辑 die 分离,TSV+混合键合堆叠)。这些手段至少能把缩放再延续十年。

本讲要点总结

术语表

术语中文解释
SRAM (Static Random Access Memory)静态随机存取存储器基于交叉耦合反相器锁存数据、无需刷新但掉电丢数据的存储器。
Bit cell位元/存储单元存储 1 bit 的最小电路单元,本讲为 6 管结构。
Cross-coupled inverters / Latch交叉耦合反相器/锁存器两个反相器输入输出互接形成的双稳结构,SRAM 保持数据的核心。
WL / BL / BL̄字线 / 位线 / 互补位线WL 控制 pass gate 选中一行;BL 对与单元交换数据。
PU / PD / PG上拉管 / 下拉管 / 传输管6T 单元三类晶体管:PMOS 上拉、NMOS 下拉、NMOS 存取管;三者相对强度决定读写裕度。
β ratioβ 比(W/L)PD/(W/L)PG,须足够大以保证读稳定性(PD 强、PG 弱)。
γ ratioγ 比(W/L)PU/(W/L)PG,可约为 1(借助 μn>μp)以保证写能力(PG 强、PU 弱)。
Current drivability电流驱动能力∝ μ·W/L,衡量晶体管强弱的真正指标(不只是 W/L)。
Read disturb读扰动读时存 0 节点被 PG/PD 分压抬升、可能误翻数据的现象。
Precharge预充电读前把 BL/BL̄ 充到 VDD 并等位化的步骤/电路(3 个 PMOS 含 equalizer)。
C_BL(位线寄生电容)位线电容长位线导线固有电容,典型 0.2 fF/μm,决定读延时。
Sense Amplifier (SA) / SAEN灵敏放大器 / SA 使能锁存型电路把位线毫伏级 ΔV 放大为数字 0/1;SAEN 控制尾管,须等 ΔV(100–200 mV)建立后使能。
Column mux / Write driver列选通 / 写驱动器传输门在读写路径间切换;反相器链生成互补写数据驱动位线。
VTC / Butterfly curve电压传输曲线 / 蝶形曲线反相器输入输出关系曲线;两条 VTC 叠画即蝶形曲线,用于静态稳定性分析。
Stable / Meta-stable point稳定点 / 亚稳点蝶形曲线外侧两交点对应数据态;中间交点(~VDD/2)任何噪声都会使其滑向稳定点。
SNM (Static Noise Margin)静态噪声裕度噪声永久存在时单元不翻转的最大容忍度 = 蝶形曲线最大内嵌正方形边长(= D1/√2);失配时取 min[SNML,SNMR],默认指 Read SNM。
W-SNM写静态噪声裕度写偏置下两曲线(须只有一个交点)间可嵌入的最小正方形边长。
N curve / SINM / SVNM / SPNMN 曲线及其三裕度存储节点接电压源扫描所得 I-V 曲线;SINM=最大可注入电流、SVNM=最大可容忍电压、SPNM=两者乘积;适合在线测试。
DNM (Dynamic Noise Margin)动态噪声裕度考虑噪声/写脉冲时长有限的裕度;SNM 是脉宽无限的 DNM;静态对 read/hold 悲观、对 write 乐观。
Tcrit / Tacross / TW临界翻转时间 / 越界时间 / 写脉宽状态轨迹越过稳定边界所需时间;写要求 TW > Tacross(写裕度 = TW − Tacross)。
Separatrix / Trajectory分界线 / 轨迹V1–V2 相平面中翻转与恢复的边界(对称单元为 45° 线);节点电压随时间在相平面走过的路径。
Shmoo plotShmoo 图时钟频率 × 电源电压的 pass/fail 图;高频角失败由写失败主导,低压角由读失败主导。
Read-Assist / Write-Assist读辅助 / 写辅助降 WL 电压提高读裕度(等效增大 β);负位线 NBL 增强 PG 或降 cell VDD 削弱 PU 提高写裕度。
RMW (Read-Modify-Write)读-改-写整行读入 buffer → 替换目标位 → 整行写回,消除选中/未选中列的字线脉宽冲突。
8T SRAM / RWL / RBL八管单元 / 读字线 / 读位线6T 加两管读缓冲实现读写解耦,Read SNM = Hold SNM,代价是面积与布线。
Sub-array子阵列SRAM 基本阵列单位,典型 32×32 至 256×256(更大则互连 RC 太慢)。
I_OFF / GIDL / 栅隧穿 I_G三类漏电保持态 3 管亚阈值漏电;Vgs<0 时漏端带带隧穿(BTBT)漏电;薄 SiO₂ 直接隧穿(HKMG 后可忽略)。
Dual-V_T cell / Boosted V_DD双阈值单元 / 抬升电源锁存用高 V_T 抑漏、pass gate 用低 V_T 保速度;V_DH 补偿稳定性损失。
Double/Triple WL / Flying BL双/三字线 / 飞线位线多层金属并联布字线降电阻(−62%);上层金属跨接位线降电容(至 50–58%)。
CPP / CGP接触栅距源接触中心到漏接触中心距离 = CT + 2×Spacer + L_G;真正的水平缩放指标,老节点 ≈ 4F。
M1 pitch / MMP金属一层间距 / 最小金属距最底层金属布线最小周期;6T 面积 = 2 CPP × 5 M1 pitch ≈ 160F²(5nm 时 ≈ 2 CPP × 6 MMP)。
Memory compiler存储器编译器代工厂提供的 SRAM 宏自动生成工具,单元用特殊设计规则深度优化。
Immersion lithography / OPC浸没式光刻 / 光学邻近校正高折射率液体提高 NA;制掩模时预补偿光学畸变——193nm 延寿两大手段。
Double patterning / SADP/SATP/SAQP双重/多重图形化line+cut 两次曝光或 spacer 自对准(mandrel+侧墙)把 pitch 增密 2/3/4 倍。
EUV极紫外光刻波长约 13.5 nm(ASML),sub-7nm 节点量产使用。
RDF (Random Dopant Fluctuation)随机掺杂涨落沟道离散掺杂原子数量与位置随机造成的 Vth 变异,σVth ∝ 1/√(LW);FinFET 未掺杂鳍使其基本消失。
Percolation path / Pelgrom plot渗流路径 / Pelgrom 图掺杂稀疏处势垒塌陷形成漏电通道;σVth 对 1/√(LW) 作图检验 RDF(小尺寸偏离直线说明有额外变异源)。
LER / LWR线边缘/线宽粗糙度线条边缘(线宽)变化的 3σ,典型 3–5 nm,源于光刻胶分子尺度;FinFET 时代主导变异源(含鳍 LER)。
WFV (Work Function Variation)功函数变异金属栅多晶晶粒取向不同导致的 Vth 随机源;总 σVth² = σ(RDF)² + σ(LER)² + σ(WFV)²。
HKMG / EOT / IL高K金属栅 / 等效氧化层厚度 / 界面层HfO₂+TiN 替代 SiO₂/poly(45nm 起);t_eq = ε_ox·t_k/ε_k + t_ox;Si 表面天然 ~0.7nm SiO₂ 计入 EOT。
RMG / Multi-Vt替换金属栅 / 多阈值金属厚度调制或工程化偶极子实现多档 Vth(TSMC N5 达 7 档)。
RTN (Random Telegraph Noise)随机电报噪声单个介质陷阱随机俘获/释放电子使 ID/Vth 两电平跳变;ΔVth = q/(W_eff·L_eff·C_ox),与面积成反比。
BTI / NBTI / PBTI偏压温度不稳定性电压/温度应力下 Vth 随时间漂移的老化效应(NBTI 对 PMOS 更严重);ΔVth ≈ A·tⁿ 幂律,使 SNM 随时间退化。
Soft Error / SER软错误 / 软错误率辐射粒子使数据翻转的暂时性失效(下次写恢复);SRAM 单元级 SER 随缩放大致不变、系统级随容量上升。
Qs (Critical charge)临界电荷翻转存储节点所需最小收集电荷,SRAM 中 ∝ Cs(VDD−VT),Cs 全为寄生电容。
SEU / MBU单粒子翻转 / 多位翻转一次粒子事件造成的单/多比特错误;MBU 严重威胁 ECC 纠错能力。
Latch-up(寄生 BJT 效应)闩锁效应衬底 IR 压降抬升局部衬底电位、开启寄生 NPN,使相邻单元连锁放电翻转。
ECC / SOI纠错码 / 绝缘体上硅冗余位纠错(能力有限);SiO₂ 衬底消除共享体硅通路,大幅降低软错误但更贵。
FinFET / Tri-Gate鳍式场效应晶体管沟道为直立薄鳍、栅三面包裹的 3D 晶体管;1998 Berkeley 提出,2012 Intel 22nm 量产(Intel 称 Tri-Gate)。
W_eff / W_phy / P_fin有效宽度 / 物理宽度 / 鳍距单鳍 W_eff = 2H_fin + T_fin(多鳍 ×N);W_phy = N×P_fin;W_eff > W_phy 时电流密度优于平面。
Width quantization宽度量化FinFET 宽度只能取整数根鳍,丧失连续调宽灵活性(GAA 纳米片解决此问题)。
SS / DIBL亚阈值摆幅 / 漏致势垒降低SS 室温极限 60 mV/dec(Intel 22nm 约 69–72);DIBL = ΔVT/ΔVD 越小越好(约 46–50 mV/V)。
SiGe channel硅锗沟道PMOS 用 SiGe 合金提升空穴迁移率(TSMC 5nm 起;GAA 中亦用作 PMOS 对策)。
GAA / Stacked nanosheet全环绕栅 / 堆叠纳米片栅四面包裹的水平堆叠薄片沟道(FinFET 旋转 90° 堆叠),静电控制最优;W_eff = (D+T)×2×N 连续可调。
Channel release / Inner spacer沟道释放 / 内侧墙选择性刻蚀去除 SiGe 牺牲层使硅片悬空;端部介质隔离保护源漏——GAA 核心工序。
BPR / BS-PDN / PowerVia埋入电源轨 / 背面供电网络电源轨埋入硅(中间方案)→ 电源完全从晶圆背面进(正面专走信号);Intel 18A 的实现叫 PowerVia。
nTSV / RibbonFET纳米硅通孔 / Intel 纳米片约 90–100 nm 见方的 TSV 连接减薄晶圆正反面;RibbonFET 是 Intel 对堆叠纳米片的命名。
TIM / IHS / Structural die热界面材料 / 散热盖 / 结构 die封装散热路径组成;结构 die 是覆盖 CPU 核心的空白硅片,提供支撑兼散热。
CFET (Complementary FET)互补场效应晶体管NMOS 与 PMOS 垂直堆叠的未来器件(~2032),可使 SRAM 面积再缩约 40%。
DTCO / STCO设计-工艺 / 系统-工艺协同优化设计规则与工艺特征协同提升密度(3nm 贡献 >50%);STCO 再加封装/3D-IC/热/供电的系统级协同。
COAG / Fin depopulation / FinFlex有源区上方栅接触 / 鳍减员 / 混合鳍典型 DTCO 手段:栅接触移到鳍上方省面积;单鳍电流增强后减少鳍数(4→3);TSMC N3 混搭 2-1/2-2/3-2 鳍 cell。
PPAC / PPCF性能-功耗-面积-成本(-形态因子)DTCO/STCO 流程的优化目标输出。
3D V-Cache / Hybrid bonding3D 垂直缓存 / 混合键合AMD 将 7nm 纯 SRAM die 键合叠在 CPU die 上(96MB L3、>2TB/s、+4 周期);铜-铜与介质同时键合的堆叠技术。
Cache (L1/L2/L3) / Embedded memory缓存 / 嵌入式存储器处理器片上多级 SRAM 存储层次;与处理器集成在同一芯片上的存储器。