Lecture 6:新兴存储器(Emerging Memories)

ECE 6465 Memory Device Technologies and Applications · Shimeng Yu(Georgia Tech)· 总时长约 2.3 小时 · P1 · P2

1. 为什么需要新兴存储器:层次结构鸿沟与"无通用存储器" P1 00:00:52

经典冯·诺依曼存储层次:SRAM(cache,<ns,kB~MB)→ DRAM(主存,~10ns,~GB)→ NAND Flash(SSD,~10µs,~100GB)→ 硬盘(~ms,>1TB)。划分维度有两条:易失/非易失、片上嵌入式/片外独立(standalone)。各层级之间的延迟与容量差距达多个数量级,由此引出本讲核心问题:是否有机会用新技术填补这些鸿沟(gap)、改变层次结构?这是新兴存储器存在的根本动机。

Today's Memory Hierarchy 金字塔图,左侧延迟标尺、右侧容量标尺
图:当今存储层次结构金字塔——左侧延迟、右侧容量,底部提问 "Opportunities to bridge these gaps?"。

理想存储器的属性清单(改编自 S.M. Sze)P1 00:01:48:① 非易失性;② 高密度(小面积/位);③ 低功耗;④ 位可改写(bit alterability);⑤ 无需先擦除即可直接覆写;⑥ 读写速度快;⑦ 高耐久;⑧ 低成本;⑨ 低工作电压;⑩ 可微缩到纳米尺度;⑪ 与 CMOS 工艺兼容。教授强调的结论:至今不存在满足全部条件的"通用存储器"(universal memory),必须按应用在属性间折中——这正是层次结构存在的原因;若有单一解决方案,层次结构就不需要了。"全是工程折中问题"。

Attributes of An Ideal Memory 清单页,黄框注明无理想存储器
图:理想存储器 11 项属性清单——右侧黄框写明 "there is no such thing as an ideal memory… it's all engineering tradeoff"。

2. 存储机制分类:移动电子 vs 移动原子 P1 00:03:24

任何存储器都依赖某种迟滞(hysteresis)物理性质来"记住"状态。把机制列成清单后可以一分为二:

根本权衡(教授反复强调):移动原子比移动电子更难——电荷易移动也易丢失(保持差),但写入快、能耗低;原子一旦移动就更稳定(保持好、抗辐射),但写入需要更长时间、更高电压/能量。这一折中无法从根本上回避。

Some Hysteretic Properties for Making a Memory Device 机制清单,红蓝括号区分移动电子与改变原子
图:迟滞机制分类——"moving electrons"(DRAM/SRAM/FLASH)vs "changing atoms"(新兴存储器),本讲的核心概念框架。

电荷型存储器的微缩挑战 P1 00:07:18:技术节点微缩使存储节点面积/体积缩小、可存电子数减少——SRAM 节点电容变小后更易发生辐射致单粒子翻转(single event upset);Flash 出现"少电子问题"(few electron problem);DRAM 必须把电容器做高做深来维持电容值。这是发展"靠原子组态存储"的新兴存储器的根本动机:原理上移动一个原子就能区分两个态(量子点接触实验已证明在两电极间放置/移除一个原子即可形成/断开导电桥),但工程化集成是另一回事。

Scaling Challenges of Charge Memory 幻灯片,含 DRAM 1T1C、SRAM 6T、浮栅 Flash 电路图
图:电荷型存储器的微缩挑战——DRAM 1T1C、SRAM 6T、浮栅 Flash 三种存储节点。

3. STT-MRAM:磁隧道结与平行/反平行电阻态 P1 00:10:32

本讲选 STT-MRAM 讲解,因其已在工业界量产(其他 MRAM 流派留待专题课)。基本单元是 MTJ(magnetic tunnel junction,磁隧道结):两层纳米磁体(典型材料 CoFeB)夹一层氧化物隧穿势垒(MgO)的三明治结构,一层为固定层(pinned layer)、一层为自由层(free layer);实际叠层远比示意复杂。

工作机理:注入穿过隧穿势垒的电流改变自由层磁化极性;垂直方向测量隧穿电流——两磁层磁化方向平行(parallel)时隧穿电流大、电阻低(on,"1");反平行(antiparallel)时电流小、电阻高(off,"0")。即 Rparallel < Rantiparallel

STT-MRAM 原理页:CoFeB/MgO/CoFeB MTJ 结构与平行/反平行组态
图:STT-MRAM——CoFeB/MgO/CoFeB 磁隧道结的平行/反平行两种组态,R_parallel < R_antiparallel。

4. PCM:相变存储器与焦耳热写入 P1 00:12:56

PCM 基于硫族化物(chalcogenide,含 VI 族元素如 Te 碲)材料,典型体系 GST:Ge₂Sb₂Te₅(锗-锑-碲,2:2:5 配比)。电阻由材料的晶体结构相决定:

Rcrystalline < Ramorphous。非晶化 = "写"(amorphization),晶化 = "擦"(crystallization)。写入方式:通过器件通入大电流做焦耳热局部加热(典型"蘑菇型"mushroom 结构:底电极上方的相变材料局部形成非晶区),由电流波形控制最终落在晶态还是非晶态。

PCM 原理页:蘑菇型 PCRAM 剖面与晶态非晶态转换示意
图:PCM——蘑菇型剖面(顶/底电极、绝缘体、非晶区)与晶态↔非晶态转换及电阻关系式。

5. RRAM:氧空位导电细丝 P1 00:15:24

RRAM 是两金属电极夹绝缘体(通常为氧化物)的二端器件:

Rw/filament < Rw/o filament

RRAM 原理页:Metal/Oxide/Metal 结构中导电细丝形成与断裂对比
图:RRAM——导电细丝形成(on)与断裂留隧穿间隙(off)的对比。

6. 电阻型存储器统一抽象与 I-V 特性(单极性/双极性) P1 00:16:44

STT-MRAM、PCM、RRAM 广义上都是"电阻型存储器":外部观测都可抽象为带箭头的可变电阻、都是二端器件,但底层物理不同(磁化取向 / 晶相 / 导电细丝)。统一编码约定:"1" = on 态 = 低阻态 LRS;"0" = off 态 = 高阻态 HRS。对应关系:MRAM 平行=LRS、反平行=HRS;PCM 晶态=LRS、非晶=HRS;RRAM 细丝形成=LRS、细丝断裂=HRS。

三种电阻型存储器 1/0 态与 LRS/HRS 对应关系总结页
图:三种电阻型存储器的 1/0–LRS/HRS 编码总结。

直接对二端可变电阻测 I-V 得到迟滞回线,分两类 P1 00:18:20

读取只需在远低于 SET/RESET 的小电压下偏置,由灵敏放大器分辨高低电流(斜率的倒数即电阻)即可判 1/0。

单极性与双极性 I-V 迟滞曲线,标注 SET/RESET/HRS/LRS/Compliance
图:电阻型存储器 I-V——左为单极性(PCM),右为双极性(STT-MRAM 及多数 RRAM)。

7. 铁电存储器:FeFET 与 FeRAM P1 00:21:27

铁电体(ferroelectric)是介电体(dielectric)的子集。普通介电体外加电场时偶极子排齐,撤场后偶极随机化、表面无净电荷;铁电体晶体结构内部存在不对称性(原子在晶胞内的位置偏移产生内建偶极,能量-原子位移曲线呈双势阱),撤去外场后偶极仍保持排齐,表面出现净电荷即剩余极化(polarization)——偶极向上/向下两个稳定态即两个数据态。

铁电原理综合页:双势阱能量曲线、钙钛矿晶胞极化、FeFET 与 FeRAM 器件结构
图:铁电原理——双势阱能量曲线、晶胞 P↑/P↓,以及 FeFET(Id-Vg 迟滞)与 FeRAM(板线电流蝶形曲线)的读出机制。

8. 十种存储技术关键指标对比(核心大表) P1 00:28:06

教授自制对比表(改编自 S. Yu, P.-Y. Chen, "Emerging memory technologies: recent trends and prospects," IEEE Solid-State Circuits Magazine, 2016 特邀综述)。注意:数值是代表性/平均值而非文献最优值——单项冠军往往牺牲了其他指标,直接拿最优值比较不公平。

指标SRAMDRAMNORNANDPCMRRAMSTT-MRAMSOT-MRAMFeRAMFeFET
单元面积>150F²6F²10F²<4F²(3D)4~50F²4~50F²6~50F²12~100F²6~50F²6~50F²
多位/单元1123-42-32-31112-3
电压<1V<1V>10V>10V<3V<3V<1V<1V<2V<3V
读时间~1ns~10ns~50ns~10µs<10ns<10ns<10ns~1ns<100ns<50ns
写时间~1ns~10ns10µs-1ms100µs-1ms~50ns<100ns<20ns<3ns<100ns<100ns
保持时间N/A~64ms>10y>10y>10y>10y>1y>1y>10y>1y
耐久次数>1E16>1E16~1E51E3~1E41E6~1E91E3~1E91E6~1E14>1E121E9~1E121E6~1E9
写能耗(J/bit)~fJ~10fJ100pJ~10fJ~10pJ~pJ~pJ~pJ~100fJ~fJ

(注:F = 光刻特征尺寸;能耗为单元级而非阵列级;PCM/RRAM/FeFET 经 3D 集成可低于 4F²。)逐项解读:

总结论:没有一项技术全面胜出 → 至今无重大商业成功。有些已量产用于特定场景,但没有改变 SRAM/DRAM/Flash 的格局。教授断言(P1 00:35:00):至少 20 年内不可能取代主流三者——新兴存储器已被研究 20+ 年(教授本人是 RRAM 先驱之一,其工作促成 TSMC RRAM 量产)。课堂问答:新兴存储器可与逻辑工艺结合吗?——这正是嵌入式定位:TSMC 平台同时提供 PCM/RRAM/STT-MRAM;STT-MRAM 各大代工厂(TSMC、Intel、GlobalFoundries、Samsung)均有提供。

Comparison of Emerging NVM 十列指标对比大表
图:十种存储技术关键指标对比大表——本讲最核心的一页。

9. 未来存储层次结构与商业定位 P1 00:38:02

新兴存储器无法取代 SRAM/DRAM/Flash,但有机会插入/补充层次结构:

Future's Memory Hierarchy 金字塔与各新兴技术定位气泡图
图:未来存储层次结构——各新兴技术的应用定位(嵌入式/末级缓存/SCM/3D Fe-VNAND)。

10. 原型芯片三大趋势:容量、密度、带宽 P1 00:44:47

趋势一:单 die 容量(截至 2020 的调研,数据来自 ISSCC/VLSI/IEDM,不含 HBM 堆叠)。主流:NAND 已达 1Tb~1.33Tb/die(数百层 3D + TLC/QLC);HBM DRAM 128Gb(堆叠);LPDDR5 单 die 12Gb(今天最好约 32Gb);SRAM 最多 128~256Mb/die。新兴:MRAM ~4GbPCM(3D XPoint)16~32GbRRAM 32Gb;铁电方面,早期 PZT 基 FeRAM 长期停在 ~128Mb,而 HfO₂ 基铁电是新秀——2020 年 Sony 演示 64kb,2023 年 Micron 即达 32Gb FeRAM。结论:新兴存储器单芯片容量约 10~30Gb 量级;嵌入式/车规只需 MB 级,无需 Gb。

Emerging NVM Trend – Prototype Chip Capacity 2000–2020 容量散点趋势图
图:原型芯片容量趋势 2000–2020(NAND 1.33Tb、RRAM 32Gb、Micron FeRAM 等)。

趋势二:归一化密度(Mb/mm² ≈ 每位成本) P1 00:47:51

芯片节点容量密度(Mb/mm²)
SRAM5nm128Mb~30(3nm 也不超过 40)
MRAM(Everspin)~22nm(老节点)4Gb38.0
DRAM18nm16Gb252.3(今天 1β/1γ 约 400)
3D XPoint PCM(Intel/Micron)20nm32Gb620
NAND Flash3D 多层~1Tb>10,000(新芯片 20~30 Gb/mm²)

解读:新兴存储器密度高于 SRAM(老节点即可达 SRAM 同量级)、接近或略超 DRAM、远逊 NAND——这决定了它们的成本定位。

原型芯片密度趋势图,标注 30/38/252.3/620 Mb/mm² 参考线
图:原型芯片密度趋势(30 / 38 / 252.3 / 620 Mb/mm² 四条参考线)。

趋势三:带宽 P1 00:50:52:读/写带宽散点图显示 Flash 写带宽低,新兴存储器写带宽普遍高于 Flash、读带宽同量级——但都挤在 ~1GB/s 角落。真正需要带宽必须用 DRAM 体系:DDR5 → GDDR → HBM3 系统带宽已超 1TB/s。这是 AI 时代 DRAM 产业繁荣的原因——Nvidia GPU 严重依赖 HBM(时事例证:Blackwell GPU 延期 6~8 个月,瓶颈不在处理器而在 HBM 供应与先进封装)。结论:新兴 NVM 不可能取代 DRAM 的带宽角色。

原型芯片读写带宽散点图,标注 DDR5/LPDDR5/GDDR6/HBM3
图:原型芯片读/写带宽散点图——eNVM 与 FLASH 挤在低带宽角落,HBM3 遥遥领先。

11. 阵列架构一:1T1R 与编程电流瓶颈 P1 00:53:23

多数新兴存储器是二端可变电阻,集成进阵列通常用 1T1R(1 个存取晶体管 + 1 个电阻)结构,类比 DRAM 的 1T1C:字线 WL 控制存取晶体管栅极,另有源线 SL 与位线 BL。工艺集成上,R 通常做在漏极接触通孔(drain contact via)上,按代工厂工艺可置于不同金属层之间(M1-M2、M4-M5 甚至 M6-M7)。

版图面积:W/L=1 时典型单元面积 12F²;最激进(借用 DRAM 竖直电容式版图)可到 6F²,但难度大。关键前提是最小尺寸晶体管够用——若电阻编程电流大、最小晶体管驱动不足,必须加大 W/L → 单元面积膨胀至几十 F²(MRAM 实际可达 ~50F²)。单元面积取决于"晶体管需要给电阻提供多大电流"。

1T1R 阵列电路与 3D 集成结构图,标注 12F²/6F²
图:1T1R 阵列电路与 3D 结构(NVM 电阻位于 BL 下方通孔上),12F²/6F² 面积结论。

读写方案(双极性为例)P1 00:56:23SET——开选中行 WL,BL 加正脉冲 V_SET(SL 接 0),电流正向流过器件写入低阻态;RESET——反转极性,脉冲加在 SL(V_RESET),电流反向写回高阻态(注意阵列中仍存在半选单元的偏置问题);READ——开 WL,BL 加远小于写电压的 V_READ,电流送入灵敏放大器判别。

1T1R Write/Read Scheme:SET、RESET、READ 三种偏置电路图
图:1T1R 的 SET / RESET / READ 偏置方案。

微缩挑战:写电流太大 P1 00:57:37。文献统计(编程电流 vs 技术节点散点图,叠加 W/L=1/2/3 晶体管驱动能力曲线,约 45/32nm 工艺):PCM 需数百 µA 甚至 >1mA(焦耳热熔化材料);MRAM 约 200µA 量级;RRAM 较低但典型仍 >100µA。节点越小电流总体越低,但典型 >100µA 仍超过最小尺寸晶体管(甚至 W/L=2~3)的驱动能力 → 必须用大晶体管 → 面积惩罚到几十 F²。理想目标:编程电流降到 ~10µA 量级才完美——此问题对今天的 PCM/MRAM/RRAM 依然成立。

编程电流 vs 技术节点散点图(PCRAM/STT-MRAM/RRAM 与晶体管驱动线)
图:1T1R 微缩挑战——编程电流 vs 技术节点 vs 晶体管驱动能力。

12. 阵列架构二:Cross-point 阵列与选择器的必要性 P1 00:59:27

若去掉存取晶体管、仅把电阻置于互相垂直的 WL/BL 交点 → 单元面积 4F²((F+F)×(F+F)),密度堪比 2D NAND——这就是 cross-point / crossbar 阵列

核心问题 P2 00:00:04:纯电阻网络中没有晶体管提供的非线性截止,加压后电流会在整个网络里乱流(sneak path 漏电通路),无法定位单元 → 必须在每个交点把选择器(selector)与存储电阻垂直串联(整体夹在 WL 与 BL 之间),靠类似二极管/双向二极管的非线性来截止未选中单元的电流。

适用性:还要求存储元件本身有高开关比(on/off ratio)来保证感测裕度。STT-MRAM 开关比仅约 2,太低,漏电通路会淹没信号 → crossbar 一般只适用于 RRAM 和 PCM;STT-MRAM 必须用 1T1R 切断 sneak path。

Cross-point 阵列电路与 3D 结构图,标注 Cell Area=4F² 与 STT-MRAM 不适用
图:Cross-point/crossbar 阵列——4F² 单元、selector+电阻串联;STT-MRAM 因开关比小不适用。

13. V/2 与 V/3 写方案:干扰与功耗的权衡 P2 00:02:20

V/2 写方案(双极操作)。RRAM 双极操作:正电压 SET(HRS→LRS,写"1"),负电压 RESET(LRS→HRS,写"0")。

V/2 写方案 SET 与 RESET 的阵列偏置图
图:V/2 写方案(双极操作)——(a) SET、(b) RESET 偏置(红=V_DD、灰=V_DD/2、绿=GND)。
两步写序列:写 00110101 先写 1 再写 0
图:两步写序列——写 "00110101":(a) 先写所有 1,(b) 再写所有 0。

V/3 写方案 P2 00:09:30:写 1 时选中行加 VW、选中列接地;所有未选中行加 VW/3、所有未选中列加 2VW/3。逐单元验证电压:

V/2 vs V/3 对比(重点,作业/考题会要求计算两种方案的总功耗):V/3 方案中除选中单元外所有单元都承受 VW/3——干扰电压更小但波及全阵列、所有单元都流电流,功耗更高;V/2 方案只有选中行/列上的单元承受 VW/2——干扰更大但范围小,完全未选中单元 0V 不耗电。即 V/3 写干扰更小、功耗更高;V/2 功耗更低、半选干扰更大。RESET 同理反转极性。

V/3 写方案偏置图(红=V_DD、蓝=V_DD/3、黄=2V_DD/3)
图:V/3 写方案偏置图——除选中单元外全阵列单元仅承受 V_W/3。
V/3 写方案手写标注版,逐单元推导电压差
图:V/3 方案手写推导——逐单元验证各节点电压差均为 V_W/3。

14. 读方案:整行并行读(电流感测 vs 电压感测) P2 00:14:09

读比写简单(无需抑制操作),可以一整行并行读出;读电压 VR 远小于写电压(如写 3V、读 <1V)。两种感测方式:

补充(课堂问答):寄生电容只影响速度(信号传播变慢),不会损失感测裕度;电阻才会产生压降。感测放大器晶体管级电路留到阵列级设计课。

整行并行读:左电流感测(虚地)、右电压感测(预充电)偏置图
图:整行并行读——左为电流感测(S/A 虚地),右为电压感测(S/A 预充电)。

15. 理想选择器、1S1R 与非线性比 N 的定义 P2 00:17:41

交叉点阵列的两大寄生问题:① sneak path——纯电阻网络中电流流经未选中单元形成旁路;② 互连电阻——WL/BL 金属线每个单元段都有寄生电阻(还有寄生电容),引起 IR drop。若单元是纯电阻(RRAM),无法阻断漏电通路——没有选择器,交叉点存储阵列无法工作

漏电通路与互连电阻三维示意图:理想电流路径 vs 漏电通路
图:交叉点阵列两大问题——绿色理想电流路径 vs 橙色漏电通路;互连电阻 → IR drop。

理想选择器 P2 00:21:08:RRAM/PCM 本质是变阻器,I-V 是两条不同斜率的直线(LRS/HRS)。理想选择器要在 I-V 中引入非线性:低于阈值电压电流可忽略、高于阈值完全导通——一个两端的理想开关(双极操作需正负两侧都有阈值)。与 1T1R 对比:晶体管也提供开关功能但是三端器件;选择器的本质是两端开关。1S1R 串联后的合成 I-V:阈值以下电流被截断(半选/未选单元无电流),阈值以上选择器全开、按存储器阻态分出两条电流曲线,在 VR 处仍可区分 1/0;要求 VR 高于选择器阈值 VT

理想选择器:R 的线性 I-V 加 S 的理想开关 I-V 合成 1S1R I-V
图:理想选择器——R 线性 I-V + S 理想开关 = 1S1R 合成 I-V;在 V/2 处截断漏电通路。

非线性比 N 的定义(重点,作业/考题) P2 00:24:45:对 V/2 写方案,

N = I(@VW) / I(@VW/2),且取低阻态(LRS)计算——因为半选单元阻态未知,必须按最坏情况(LRS、电流最大)评估。imec 指数型选择器实例(Govoreanu, ICICDT 2015)读数:I(@VW) ≈ 20µA、I(@VW/2) ≈ 1µA,N ≈ 20——不算大。直观含义:选中单元写电流 20µA 时,同行每个 LRS 半选单元各贡献约 1µA 漏电流。

非线性比 N 定义页:1S/1R/1S1R 曲线与 half-selected current,公式 N=I(@Vw)/I(@Vw/2)
图:非线性比 N 的定义——N = I(@V_W)/I(@V_W/2),对 V/2 写方案、按 LRS 最坏情况取值。

16. 两类实际选择器 I-V:指数型 vs 阈值型 P2 00:30:52

现实中没有半导体器件能实现理想的突变开关,实际选择器分两类:

课堂问答:读成功后单元总会进入大电流状态,所以设计时始终按最坏情况(LRS 高电流)考虑。

阈值型 1S1R 实例标注版:RRAM only / Selector only / 1S1R 与 V/3 工作点
图:阈值型 I-V 选择器实例(FAST)——2V 写、半选单元工作在 ~0.67V(V/3)。

两类选择器的四条设计结论 P2 00:33:52:① 选择器特性必须与 NVM 器件特性匹配(导通电压/写电压/读电压协同设计);② 串联选择器不可避免地抬高写电压(部分电压先用于打开选择器);③ 指数型 I-V 的读感测裕度劣化——on 态读电流同样被指数曲线压低;④ 阈值型 I-V 的读电压必须抬到选择器阈值之上,有读干扰 NVM 阻态的风险。

阈值型的完整图像是回滞:上扫沿阈值电压 VT 导通,下扫沿保持电压 Vhold(很小,~0.2–0.3V)退出。数值例子:写——施加 2V 跨 1S1R,选择器导通后只占 0.2V,剩余 1.8V 落在 RRAM 上,有利于写;读——读电压必须 >VT(如 1.2V),导通后选择器仅占 0.2V,剩余 1V 落在 RRAM 上——即使是读操作也有约 1V 跨在存储单元上,可能造成读干扰。结论:选择器设计非常 tricky、裕度极小,还要叠加器件变异与噪声——这是教授本人多年研究的难题。

两类选择器 I-V:指数型与阈值型(含回滞箭头)及四条设计结论
图:两类选择器 I-V——(a) 指数型、(b) 阈值型(含 V_T/V_hold 回滞),四条设计结论。

17. 选择器分类与机理:OTS / IMT / 隧穿 / CBRAM 型 / PN 二极管 P2 00:39:06

选择器分类树:

I-V 类型器件机理 / 备注
阈值型OTS(ovonic threshold switch,双向阈值开关)硫属化物、陷阱填充导通,3D XPoint 与 SOM 采用
IMT(insulator-metal transition)NbO₂ 绝缘体-金属转变,on/off 比小(10–100),无工业采用
指数型MIEC(mixed ionic electronic conduction)IBM 多年研发,机理未公开
隧穿势垒(tunnel barrier)多层氧化物能带工程,双向指数 I-V
CBRAM 型(弱导电桥)故意做保持力差的导电桥存储器当易失开关(教授勘误:幻灯片归类有误,特性上更近阈值型)
整流型PN 二极管单向导通,仅适合单极性 PCM;FEOL 工艺无法 3D 堆叠
Selector Category 分类树
图:选择器分类树(OTS / IMT / MIEC / 隧穿 / CBRAM 型 / PN 二极管)。

PN 二极管(整流型):单向导通,只适合 set/reset 同极性的 PCM;Samsung 2012 年第一代 8Gb PCM 芯片即用硅二极管做选择器。但硅二极管是前道(FEOL)工艺,无法 3D 堆叠(顶层做不出单晶硅)。

隧穿氧化层选择器(指数型) P2 00:43:14:通过多层氧化物(如 TaOx/TiO₂/TaOx)能带工程实现非线性——低电压时隧穿电流需穿过整个叠层(电流很小);高电压时能带弯曲,只需隧穿一层(FN 隧穿型),电流指数增大。实例(W. Lee, GIST, VLSI 2012):JMAX > 10⁷ A/cm²、选择比 ~10⁴。教授指出文献定义问题:该文用读电压定义选择比是"错误定义",正确做法应以写操作为准——用 Vwrite 与 Vwrite/2 处电流之比,因为写是更严苛的最坏条件。

隧穿氧化层选择器:低/高电压能带图与 10⁴ 选择比 I-V
图:隧穿氧化层选择器——多势垒隧穿能带工程,选择比 ~10⁴。

OTS(双向阈值开关) P2 00:45:02:基于硫属化物,与 PCM 同族(Ge-Sb-Te 类合金、配方不同)。机理未完全弄清,主流观点:深/浅陷阱相关的电子注入——高电压把陷阱填满后形成新导电通道而突然导通;导通电流不足以触发熔化/原子移动,是纯电子行为,因此易失。开关 vs 存储器的本质区别(课堂问答):开关回到 0V 后回到 off 态、不记忆;存储器回到 0V 后状态保持——OTS = "记忆性很差的 PCM",正好当开关用。snapback 的测量学解释:电压源扫 V 测 I → 电压连续、电流突跳("N 型"曲线);电流源扫 I 测 V → 电流连续、电压回缩,呈 "S 型" snapback——同一物理、不同测量方式。Samsung 数据(S. Kim, VLSI 2013):VT 与 VH 随膜厚(10/30/50nm)变化。

OTS 机理页:Poole-Frenkel 传导、深浅陷阱能带图、V_T 与 V_H 实测
图:OTS 机理——Poole-Frenkel 传导、deep/shallow trap 能带图、V_T 与 V_H 随膜厚变化。

IMT 选择器 P2 00:50:15:代表材料 NbO₂,随温度在扭曲金红石(绝缘)与金红石(金属)结构间转变,转变温度约 1070K,产生突变 I-V。实例:E. Cha (POSTECH), IEDM 2013,~10nm 3D 垂直 ReRAM + NbO₂ 选择器。缺点:on/off 比仅 10–100,难以支撑大阵列,无工业采用。

IMT 选择器:NbO₂ 两种晶体结构与转变温度、器件 I-V
图:IMT 选择器——NbO₂ 绝缘体-金属转变(~1070K),on/off 比偏小。

CBRAM 型(弱导电桥)选择器 P2 00:51:11:CBRAM 中施加电压把金属(如 Ag)驱入氧化物(如 HfO₂)形成金属导电桥;存储器要求桥稳定,选择器反过来要导电桥——撤压后细丝自发溶解、回到 off 态。物理图像(成核理论):细丝半径 R < R₀ 时撤场后自发溶解(阈值开关行为),R > R₀ 时稳定(存储行为);溶解时间约 100ns–1ms。名义特性好(N 可达 10⁷),但变异性与可靠性差,从未量产。

CBRAM 型弱导电桥选择器:Ag/HfO₂/Pt 结构与细丝溶解成核理论
图:CBRAM 型选择器——Ag/HfO₂/Pt 弱导电桥,细丝自发溶解即易失开关。

选择器文献调研表 P2 00:52:51

类型材料叠层电压范围电流驱动力非线性比 N耐久文献
指数型Ni/TiO₂/Ni±4V0.1 MA/cm²10³>10⁶IEDM 2011
Pt/TaOx/TiO₂/TaOx/Pt±2.5V32 MA/cm²10⁴>10¹⁰VLSI 2012
TiN/a-Si/TiN±3V1 MA/cm²1.5×10³>10⁶IEDM 2014
Ru/TaOx/W−4V~+2.5V1 MA/cm²5×10⁴>10¹⁰IEDM 2016
MIEC(IBM)±1.6V50 MA/cm²10⁴IEDM 2012
阈值型TiN/NbO₂/W(IMT)0.9–1V10 MA/cm²50IEDM 2015
TeAsGeSiSe 基 OTS1.5–2V11 MA/cm²10³10⁸IEDM 2012
SiTe 基 OTS0.6–0.9V10 MA/cm²10⁶5×10⁵VLSI 2016
FAST(CBRAM 型)0.1–0.9V5 MA/cm²10⁷10⁸IEDM 2014
Cu/doped-HfO₂/Pt(CBRAM 型)0.05–0.4V4.1 MA/cm²10⁷10¹⁰IEDM 2015

关键指标:on 态驱动电流密度必须够大以提供编程电流(典型要求 >1 MA/cm²);电压范围要与所配 RRAM/PCM 匹配;还需长耐久(每次读都要开关选择器)。经验法则(back-of-envelope):N×N 交叉阵列要求非线性比 N > 阵列行数。例:1024×1024 阵列若 N=1000,未选中行约 1000 个单元的漏电流累加 ≈ 选中单元电流本身,将无法分辨 on/off——所以 N 必须显著大于行数(千行级阵列要求 N>1000),阵列越大要求 N 越大。

Selector Survey 文献调研汇总表
图:选择器文献调研汇总表(类型/材料/电压/电流驱动力/N/耐久/文献)。

18. 互连电阻与 IR drop:交叉点阵列的微缩极限 P2 00:55:46

当 WL/BL 铜线宽度缩到 ~20nm 以下,铜电阻率激增。两大机理:① 表面散射——Cu 电子平均自由程约 39nm,线宽与之可比时电子更多撞到表面;② 晶界散射——细线晶界更多。后果:单元到单元每段线电阻 Rj 随线宽指数式上升——20nm 处约 10Ω/段,10nm 处达数百 Ω/段(5→25nm 区间 Rj 变化约 10⁴ 倍)。

危害量化:设 Ron ≈ 5kΩ,若每段 100Ω(F=10nm),约 50 段导线的串联电阻就等于 Ron——要给最远单元加 2V 写压,边缘驱动器需提供 4V。但这会毁掉 V/2 方案:4V 的一半是 2V,紧邻驱动器的最近单元上的半选电压就高达 2V,等于写电压,会误写它。IR drop 使设计裕度趋近于零。结论:线宽 <20nm 后除非互连材料有突破,交叉点阵列很难继续微缩。

Cu 线电阻在纳米尺度激增:表面/晶界散射示意与 R_j-线宽曲线
图:Cu 互连电阻在纳米尺度激增——表面散射 + 晶界散射,R_j 随线宽变化约 10⁴ 倍。

写/读裕度的最坏情况分析与 SPICE 仿真 P2 00:59:22:写裕度最坏情况是离行/列电压源最远、且全阵列单元都处于 LRS 时的单元(Vaccess/Vdd 最小);读裕度最坏情况是 ΔI = Ion − Ioff 最小的最远单元。阵列是 m×n 的大电阻网络(含 Rj 与单元电阻),需构建网表做 SPICE 仿真(非线性比等效为把未选单元电阻乘以 N 倍)。仿真结论(S. Yu & P.-Y. Chen, IEEE SSCS Magazine 2016):写访问裕度 Access VW(%) 随阵列规模(64→1024)下降;非线性高(1000×)时 1024×1024 阵列仍可保 >80%,线性(无选择器)时几乎为 0、无法写入;写功率随 N 增大显著下降(线性 ~mW 级 vs 1000× ~100µW 级)——大非线性同时改善 IR drop 与功耗

Access V_W 百分比与写功率 vs 阵列规模(Linear/10x/100x/1000x 曲线)
图:大非线性选择器同时降低 IR drop 与写功耗——Access V_W(%) 与写功率 vs 阵列规模。

交叉点阵列设计挑战总结 P2 01:01:55:① 漏电通路降低写/读裕度;② I-V 非线性可抑制漏电通路,通常需要选择器;③ 线电阻造成互连压降,进一步降低裕度;④ 要维持裕度,需要更高的"单元电阻/线电阻"比值;⑤ 但提高单元电阻又会减小读电流感测裕度、增加访问延迟——多重权衡。

交叉点阵列设计挑战总结页五条结论
图:交叉点阵列设计挑战总结。

19. 案例研究:3D XPoint 的技术成功与商业失败 P2 01:02:19

3D XPoint 是新兴存储器真正进入市场的范例。2015 年 Intel 与 Micron 联合宣布商用化:基于 1S1R 的双层(2-deck)交叉点堆叠,中间共享位线、上下两层字线。宣传点:非易失、高耐久、可堆叠、约为 DRAM 8–10 倍密度、改造 system memory 与 storage 之间的存储层级。发布时未披露细节,业界疑问(材料是否 PCM?选择器是什么?工艺节点?)由 TechInsights 买芯片逆向工程逐一解答。

TechInsights 逆向工程结果 P2 01:03:32

XPoint Memory Overview:16GB die、91.4% 效率、0.62 Gb/mm²、40nm pitch
图:XPoint die 逆向参数——16GB、阵列效率 91.4%、0.62/0.69 Gb/mm²、40nm 字线 pitch(F=20nm)。
XPoint 工艺集成:GST PCM 在 M4-M5 之间、Se-Ge-Si OTS、双层堆叠 SEM
图:XPoint 工艺集成——GST PCM + As 掺杂 Se-Ge-Si OTS,M4–M5 间双层堆叠。
XPoint Memory/OTS 元素成分 SEM 与材料标注
图:XPoint 单元材料——PCM(Ge₂Sb₂Te₅ 类)+ OTS(Se-As-Ge-Si)、W/WN 电极与中间电极。

密度与延迟定位:"somewhere in the middle" P2 01:08:05:vs DRAM——0.62 Gb/mm² 约为当时 Samsung 18nm DRAM 的 3.2 倍、Micron 20nm DRAM 的 6.6 倍;vs 3D NAND——仅为 Samsung 48L V-NAND TLC 的 24%、Toshiba/SanDisk 64L 的 18%(当时 3D NAND 已 3.4–5.6 Gb/mm²)。延迟(Intel 128Gb 芯片,ISSCC/IEDM 发表):F=20nm、2 decks、128Gb/die、16 个独立 bank、bank 访问 16B、读延迟 100ns/bank、写延迟 500ns/bank、写带宽 >35,000 MB/s/TB——比 DRAM(读 ~50–60ns)稍慢,比 NAND(读数 µs–数十 µs、写数百 µs)快得多。密度与延迟都介于 DRAM 与 NAND 之间——正是存储级内存(SCM)定位。

第一代 3D XPoint:2-deck SEM 截面、128Gb die、读 100ns 写 500ns 属性表
图:第一代 3D XPoint 128Gb 芯片——读 100ns/bank、写 500ns/bank。

产品形态 P2 01:10:06:Intel 包装为 Optane(M.2 2280、PCIe Gen3×2、16/32GB,高端 SSD/存储级内存);Micron 对应产品为 X100 SSD(联合开发技术、各自出货)。

讲者对 3D XPoint 商业失败的分析("市场说了真话") P2 01:10:55

技术成功、生意失败——失败原因是业务而非技术。时间线:2020 年 Micron 首先退出(5 年销量不佳、停产);Intel 继续开发并演示了第二代 4 层(4-deck)堆叠(仍是逐层制造、非 bit-cost scalable);2022 年 Intel 宣布停止 Optane 产品线、整个团队解散(Intel 战略收缩聚焦逻辑/代工,SSD 业务卖给 SK Hynix)。

失败归因:定位高端 SSD 后遭 SLC 3D NAND 正面竞争——Samsung Z-NAND 用单层单元 3D NAND 把读速度推到 µs 级,性能与 XPoint 差距不大而 NAND 成本低得多;XPoint 性能略优但成本劣势明显、市场/应用优势不清晰。再叠加其逐层制造无法像 3D NAND 那样摊薄每位成本,商业模型走不通。这印证了第 8 节的论断:新兴存储器即便技术指标"介于中间",若没有清晰的成本/应用优势,仍难以在主流市场立足。

第二代 4 层 3D XPoint 与商业失败分析:Micron 2020 停产、Intel 2022 停止、Z-NAND 竞争
图:第二代 4-deck XPoint 与商业结局——Micron 2020 停产、Intel 2022 停止 Optane、SLC NAND(Z-NAND)竞争。

20. 展望:Selector-Only Memory(SOM) P2 01:13:56

这条技术路线可能"卷土重来":SK Hynix 与 Samsung 启动 selector-only memory(SOM)——在 1S1R 中去掉相变存储层,直接把 OTS 本身当存储器用(机理留待 PCM 专题课,"从机理角度相当漂亮")。优势:少沉积一层材料、节省制造成本;工艺简化后潜在更快、更可靠。本讲(cross-point memory 部分)至此完结,后续将进入各新兴技术的专题深入。

本讲要点总结

术语表

术语中文释义
Emerging NVM新兴非易失存储器不依赖电荷、多靠移动原子/翻转磁矩或偶极存储数据的新型存储技术统称。
Universal memory通用存储器同时满足非易失、高密度、高速、低功耗等全部理想属性的假想存储器,至今不存在。
Hysteresis迟滞系统状态依赖历史的特性,是任何存储器"记住"数据的物理基础。
Memory hierarchy存储层次结构SRAM 缓存→DRAM 主存→Flash 存储→硬盘的分级体系,按延迟/容量/成本折中。
STT-MRAM自旋转移矩磁性 RAM用自旋极化电流翻转 MTJ 自由层磁化方向、以平行/反平行电阻态存数据。
SOT-MRAM自旋轨道矩 MRAM用自旋轨道矩写入的 MRAM 变体,写速度可低于 1ns 但电流密度很高。
MTJ (magnetic tunnel junction)磁隧道结两铁磁层(CoFeB)夹氧化物隧穿势垒(MgO)的三明治结构,MRAM 的基本存储单元。
Pinned / Free layer固定层/自由层MTJ 中磁化方向固定的参考磁层与可被写入翻转的磁层。
PCM / PCRAM相变存储器用焦耳热使硫族化物在晶态(低阻)与非晶态(高阻)间转换的存储器。
Chalcogenide硫族(属)化物含 VI 族元素(S/Se/Te)的合金材料体系,PCM 与 OTS 共用的材料家族。
GST (Ge₂Sb₂Te₅)锗锑碲最常用的相变材料,典型配比 2:2:5;XPoint 逆向分析为 Ge₀.₁₂Sb₀.₂₉Te₀.₅₄(Si₀.₀₅)。
Amorphization / Crystallization非晶化/晶化PCM 的写(熔化+淬火成无序高阻态)与擦(加热结晶成有序低阻态)过程。
Quench淬火快速撤去热源使原子来不及回到晶格位置,从而冻结成非晶态。
RRAM / ReRAM阻变存储器靠氧化物中导电细丝形成/断裂改变电阻的二端存储器。
Oxygen vacancy氧空位氧化物中缺失氧原子形成的缺陷,排列成串即构成 RRAM 的导电细丝。
Conductive filament导电细丝由氧空位(或金属离子)连成的导电通道,存在为 LRS、断裂为 HRS。
Tunneling gap隧穿间隙细丝断裂后留下的绝缘间隙,决定 RRAM 高阻态阻值。
LRS / HRS低阻态/高阻态电阻型存储器中分别编码"1"(on)与"0"(off)的两个电阻状态。
SET / RESET置位/复位把器件从 HRS 切到 LRS(写 1)/从 LRS 切回 HRS(写 0)的写操作。
Compliance current限制(钳位)电流SET 时由存取晶体管等限制的最大电流,防止器件永久击穿。
Unipolar / Bipolar switching单极性/双极性开关SET 与 RESET 用同一极性电压(PCM)/ 必须用相反极性电压(STT-MRAM、多数 RRAM)的两类开关方式。
Ferroelectric铁电体介电体的子集,晶格不对称产生内建偶极,撤去外场后极化仍保持,可双稳存储。
Polarization(剩余)极化铁电体内偶极整体排齐后在表面产生的净电荷,方向上/下编码数据。
Double-well potential双势阱铁电体能量-原子位移曲线的两个稳定极小值,对应两个极化态。
FeFET铁电场效应晶体管栅叠层集成铁电材料、由极化方向调制阈值电压的存储晶体管;回线与 Flash 相反(逆时针),场驱动写入、能耗仅 ~fJ。
FeRAM铁电随机存储器1T1C 结构、用铁电电容的瞬态翻转电流做破坏性读出的存储器。
PZT / HfO₂ 基铁电锆钛酸铅/铪氧基铁电传统(容量停在 ~128Mb)与新一代(CMOS 兼容、Micron 已达 32Gb)铁电材料体系。
Retention数据保持非易失存储器保住数据的时间,典型规格 85°C 下 10 年。
Endurance耐久性可承受的写循环次数;新兴存储器典型 1E6~1E12,介于 NAND(~1E3)与 SRAM/DRAM(>1E16)之间。
Embedded memory / eFlash嵌入式存储/嵌入式闪存与逻辑同片集成的存储;eFlash 无法微缩到 28nm 以下,是新兴 NVM 切入车规 MCU 市场的突破口。
MCU微控制器汽车电子核心芯片,片上需数 MB 非易失代码存储。
SCM (storage class memory)存储级内存性能与密度介于 DRAM 与 SSD/NAND 之间的存储层级,IBM 提出,Optane 的市场定位。
3D XPoint三维交叉点存储器Intel/Micron 2015 年商用的双层 1S1R(GST PCM + OTS)存储技术,F=20nm;技术可行但商业失败。
Optane傲腾Intel 基于 3D XPoint 的产品品牌(高端 SSD/内存模块),2022 年停止。
SOM (selector-only memory)仅选择器存储器SK Hynix/Samsung 提出的去掉 PCM 层、直接用 OTS 兼作存储的新概念,省工艺、潜在更快更可靠。
Fe-VNAND铁电垂直 NAND把 3D NAND 电荷俘获层替换为铁电层的研究方向(SK hynix/Samsung/Georgia Tech)。
HBM高带宽存储器3D 堆叠 DRAM,HBM3 系统带宽超 1TB/s,AI GPU 的关键瓶颈部件。
1T1R一晶体管一电阻用存取晶体管选通可变电阻的存储单元结构,典型 12F²、最小 6F²,电流不足时膨胀至 ~50F²。
1S1R一选择器一电阻选择器与存储电阻垂直串联构成的交叉点单元。
W/L晶体管宽长比决定驱动电流的尺寸参数;编程电流大时必须增大 W/L,牺牲单元面积。
F (feature size)特征尺寸光刻最小线宽,单元面积以 F² 为单位归一化。
Cross-point / Crossbar array交叉点/交叉条阵列存储元件直接置于垂直 WL/BL 交点的无晶体管阵列,单元面积 4F²。
Selector选择器(选通器)串联在交叉点单元中的两端非线性开关器件,用于截止未选中单元电流。
Sneak path漏电通路(潜行通路)crossbar 中经未选中单元的寄生电流路径,无选择器时使读写无法定位。
On/off ratio开关比高阻态与低阻态电阻之比;STT-MRAM 仅约 2,故不适合 crossbar、需 1T1R。
Half-selected cell半选单元位于选中行或选中列上、承受部分写电压(V/2 或 V/3)干扰的未选中单元。
V/2 write scheme半压写方案未选行/列加 V_W/2,半选单元承受 V_W/2、完全未选单元 0V 的写偏置方案(功耗低、干扰大)。
V/3 write scheme三分之一压写方案未选行加 V_W/3、未选列加 2V_W/3,全部非选中单元仅承受 V_W/3 的写偏置方案(干扰小、功耗高)。
Write inhibit写抑制通过偏置使不应被写的单元免于编程(类比 NAND 的 inhibit)。
Current / Voltage sensing电流/电压感测读出方式:测位线电流大小,或预充位线后测其放电速率。
Virtual ground虚地感测放大器输入端保持近 0V 的电流汇入节点。
S/A (sense amplifier)灵敏(感测)放大器读取时分辨高低电流/电阻从而判别 1/0 的电路。
IR drop电阻压降电流流经互连线电阻造成的电压损失,恶化最远单元的写/读裕度。
Nonlinearity ratio (N)非线性比N = I(@V_W)/I(@V_W/2)(取 LRS、最坏情况),衡量选择器抑制半选漏电的能力;需大于阵列行数。
Threshold I-V阈值型 I-V超过阈值电压突然导通的选择器特性(OTS、IMT)。
Exponential I-V指数型 I-V电流随电压指数变化的选择器特性(隧穿、MIEC 等)。
Rectifying I-V整流型 I-V单向导通特性(PN 二极管),仅适用于单极性操作的 PCM。
Hold voltage (V_H)保持电压阈值开关导通后维持 on 态所需的最小电压(远小于 V_T),导致读时大部分电压落在存储单元上而产生读干扰。
Snapback回缩/骤回阈值开关导通瞬间电压回落的现象;电流源扫描时表现为 S 型 I-V。
OTS (ovonic threshold switch)双向(奥弗辛斯基)阈值开关基于硫属化物的易失阈值开关,3D XPoint 的选择器,机理与陷阱填充相关、纯电子行为。
IMT (insulator-metal transition)绝缘体-金属转变材料(如 NbO₂,~1070K)随温度在绝缘/金属相间切换的开关机理,on/off 比小(10–100)。
MIEC混合离子电子导电IBM 开发的指数型选择器机理(细节未公开)。
CBRAM (conductive bridge RAM)导电桥存储器金属离子(Ag/Cu)在氧化物中形成导电细丝的存储器;细丝弱化(差保持力)即可当易失选择器。
Poole-Frenkel conduction普尔-法兰克传导陷阱辅助的载流子发射传导机制,OTS off 态的主导机制之一。
FN tunnelingFN 隧穿高场下经三角势垒的隧穿,隧穿氧化层选择器高压导通的机制。
Drive current density驱动电流密度选择器 on 态可提供的电流密度,需 >1 MA/cm² 以支撑编程电流。
Surface / Grain boundary scattering表面/晶界散射纳米线宽下 Cu 电阻率上升的两大机理(Cu 平均自由程约 39nm)。
Worst-case analysis最坏情况分析以离驱动器最远、全阵列 LRS 的单元评估写/读裕度的方法。
Write access margin写访问裕度最远选中单元实际分得的 V_W 占边缘驱动器输出 V_W 的百分比。
CMOS under array阵列下 CMOS外围电路置于存储阵列下方以提高面积效率的设计(XPoint 阵列效率 91.4%)。
Bit-cost scalable位成本可缩3D NAND 式一次光刻多层降低每位成本的堆叠方式;3D XPoint 逐层制造,不具备此特性。
SLC NAND / Z-NAND单层单元 NAND每单元 1 bit 的高速 3D NAND(Samsung Z-NAND 读达 µs 级),以低成本挤压了 Optane 的市场空间。
Single event upset单粒子翻转辐射粒子使存储节点数据翻转的效应;SRAM 微缩后更敏感,磁性/原子型存储器天然免疫。
Quantum point contact量子点接触在两电极间放置/移除单个原子形成/断开导电桥的实验,证明单原子存储原理可行。