经典冯·诺依曼存储层次:SRAM(cache,<ns,kB~MB)→ DRAM(主存,~10ns,~GB)→ NAND Flash(SSD,~10µs,~100GB)→ 硬盘(~ms,>1TB)。划分维度有两条:易失/非易失、片上嵌入式/片外独立(standalone)。各层级之间的延迟与容量差距达多个数量级,由此引出本讲核心问题:是否有机会用新技术填补这些鸿沟(gap)、改变层次结构?这是新兴存储器存在的根本动机。

理想存储器的属性清单(改编自 S.M. Sze)P1 00:01:48:① 非易失性;② 高密度(小面积/位);③ 低功耗;④ 位可改写(bit alterability);⑤ 无需先擦除即可直接覆写;⑥ 读写速度快;⑦ 高耐久;⑧ 低成本;⑨ 低工作电压;⑩ 可微缩到纳米尺度;⑪ 与 CMOS 工艺兼容。教授强调的结论:至今不存在满足全部条件的"通用存储器"(universal memory),必须按应用在属性间折中——这正是层次结构存在的原因;若有单一解决方案,层次结构就不需要了。"全是工程折中问题"。

任何存储器都依赖某种迟滞(hysteresis)物理性质来"记住"状态。把机制列成清单后可以一分为二:
根本权衡(教授反复强调):移动原子比移动电子更难——电荷易移动也易丢失(保持差),但写入快、能耗低;原子一旦移动就更稳定(保持好、抗辐射),但写入需要更长时间、更高电压/能量。这一折中无法从根本上回避。

电荷型存储器的微缩挑战 P1 00:07:18:技术节点微缩使存储节点面积/体积缩小、可存电子数减少——SRAM 节点电容变小后更易发生辐射致单粒子翻转(single event upset);Flash 出现"少电子问题"(few electron problem);DRAM 必须把电容器做高做深来维持电容值。这是发展"靠原子组态存储"的新兴存储器的根本动机:原理上移动一个原子就能区分两个态(量子点接触实验已证明在两电极间放置/移除一个原子即可形成/断开导电桥),但工程化集成是另一回事。

本讲选 STT-MRAM 讲解,因其已在工业界量产(其他 MRAM 流派留待专题课)。基本单元是 MTJ(magnetic tunnel junction,磁隧道结):两层纳米磁体(典型材料 CoFeB)夹一层氧化物隧穿势垒(MgO)的三明治结构,一层为固定层(pinned layer)、一层为自由层(free layer);实际叠层远比示意复杂。
工作机理:注入穿过隧穿势垒的电流改变自由层磁化极性;垂直方向测量隧穿电流——两磁层磁化方向平行(parallel)时隧穿电流大、电阻低(on,"1");反平行(antiparallel)时电流小、电阻高(off,"0")。即 Rparallel < Rantiparallel。

PCM 基于硫族化物(chalcogenide,含 VI 族元素如 Te 碲)材料,典型体系 GST:Ge₂Sb₂Te₅(锗-锑-碲,2:2:5 配比)。电阻由材料的晶体结构相决定:
即 Rcrystalline < Ramorphous。非晶化 = "写"(amorphization),晶化 = "擦"(crystallization)。写入方式:通过器件通入大电流做焦耳热局部加热(典型"蘑菇型"mushroom 结构:底电极上方的相变材料局部形成非晶区),由电流波形控制最终落在晶态还是非晶态。

RRAM 是两金属电极夹绝缘体(通常为氧化物)的二端器件:
即 Rw/filament < Rw/o filament。

STT-MRAM、PCM、RRAM 广义上都是"电阻型存储器":外部观测都可抽象为带箭头的可变电阻、都是二端器件,但底层物理不同(磁化取向 / 晶相 / 导电细丝)。统一编码约定:"1" = on 态 = 低阻态 LRS;"0" = off 态 = 高阻态 HRS。对应关系:MRAM 平行=LRS、反平行=HRS;PCM 晶态=LRS、非晶=HRS;RRAM 细丝形成=LRS、细丝断裂=HRS。

直接对二端可变电阻测 I-V 得到迟滞回线,分两类 P1 00:18:20:
读取只需在远低于 SET/RESET 的小电压下偏置,由灵敏放大器分辨高低电流(斜率的倒数即电阻)即可判 1/0。

铁电体(ferroelectric)是介电体(dielectric)的子集。普通介电体外加电场时偶极子排齐,撤场后偶极随机化、表面无净电荷;铁电体晶体结构内部存在不对称性(原子在晶胞内的位置偏移产生内建偶极,能量-原子位移曲线呈双势阱),撤去外场后偶极仍保持排齐,表面出现净电荷即剩余极化(polarization)——偶极向上/向下两个稳定态即两个数据态。

教授自制对比表(改编自 S. Yu, P.-Y. Chen, "Emerging memory technologies: recent trends and prospects," IEEE Solid-State Circuits Magazine, 2016 特邀综述)。注意:数值是代表性/平均值而非文献最优值——单项冠军往往牺牲了其他指标,直接拿最优值比较不公平。
| 指标 | SRAM | DRAM | NOR | NAND | PCM | RRAM | STT-MRAM | SOT-MRAM | FeRAM | FeFET |
|---|---|---|---|---|---|---|---|---|---|---|
| 单元面积 | >150F² | 6F² | 10F² | <4F²(3D) | 4~50F² | 4~50F² | 6~50F² | 12~100F² | 6~50F² | 6~50F² |
| 多位/单元 | 1 | 1 | 2 | 3-4 | 2-3 | 2-3 | 1 | 1 | 1 | 2-3 |
| 电压 | <1V | <1V | >10V | >10V | <3V | <3V | <1V | <1V | <2V | <3V |
| 读时间 | ~1ns | ~10ns | ~50ns | ~10µs | <10ns | <10ns | <10ns | ~1ns | <100ns | <50ns |
| 写时间 | ~1ns | ~10ns | 10µs-1ms | 100µs-1ms | ~50ns | <100ns | <20ns | <3ns | <100ns | <100ns |
| 保持时间 | N/A | ~64ms | >10y | >10y | >10y | >10y | >1y | >1y | >10y | >1y |
| 耐久次数 | >1E16 | >1E16 | ~1E5 | 1E3~1E4 | 1E6~1E9 | 1E3~1E9 | 1E6~1E14 | >1E12 | 1E9~1E12 | 1E6~1E9 |
| 写能耗(J/bit) | ~fJ | ~10fJ | 100pJ | ~10fJ | ~10pJ | ~pJ | ~pJ | ~pJ | ~100fJ | ~fJ |
(注:F = 光刻特征尺寸;能耗为单元级而非阵列级;PCM/RRAM/FeFET 经 3D 集成可低于 4F²。)逐项解读:
总结论:没有一项技术全面胜出 → 至今无重大商业成功。有些已量产用于特定场景,但没有改变 SRAM/DRAM/Flash 的格局。教授断言(P1 00:35:00):至少 20 年内不可能取代主流三者——新兴存储器已被研究 20+ 年(教授本人是 RRAM 先驱之一,其工作促成 TSMC RRAM 量产)。课堂问答:新兴存储器可与逻辑工艺结合吗?——这正是嵌入式定位:TSMC 平台同时提供 PCM/RRAM/STT-MRAM;STT-MRAM 各大代工厂(TSMC、Intel、GlobalFoundries、Samsung)均有提供。

新兴存储器无法取代 SRAM/DRAM/Flash,但有机会插入/补充层次结构:

趋势一:单 die 容量(截至 2020 的调研,数据来自 ISSCC/VLSI/IEDM,不含 HBM 堆叠)。主流:NAND 已达 1Tb~1.33Tb/die(数百层 3D + TLC/QLC);HBM DRAM 128Gb(堆叠);LPDDR5 单 die 12Gb(今天最好约 32Gb);SRAM 最多 128~256Mb/die。新兴:MRAM ~4Gb;PCM(3D XPoint)16~32Gb;RRAM 32Gb;铁电方面,早期 PZT 基 FeRAM 长期停在 ~128Mb,而 HfO₂ 基铁电是新秀——2020 年 Sony 演示 64kb,2023 年 Micron 即达 32Gb FeRAM。结论:新兴存储器单芯片容量约 10~30Gb 量级;嵌入式/车规只需 MB 级,无需 Gb。

趋势二:归一化密度(Mb/mm² ≈ 每位成本) P1 00:47:51:
| 芯片 | 节点 | 容量 | 密度(Mb/mm²) |
|---|---|---|---|
| SRAM | 5nm | 128Mb | ~30(3nm 也不超过 40) |
| MRAM(Everspin) | ~22nm(老节点) | 4Gb | 38.0 |
| DRAM | 18nm | 16Gb | 252.3(今天 1β/1γ 约 400) |
| 3D XPoint PCM(Intel/Micron) | 20nm | 32Gb | 620 |
| NAND Flash | 3D 多层 | ~1Tb | >10,000(新芯片 20~30 Gb/mm²) |
解读:新兴存储器密度高于 SRAM(老节点即可达 SRAM 同量级)、接近或略超 DRAM、远逊 NAND——这决定了它们的成本定位。

趋势三:带宽 P1 00:50:52:读/写带宽散点图显示 Flash 写带宽低,新兴存储器写带宽普遍高于 Flash、读带宽同量级——但都挤在 ~1GB/s 角落。真正需要带宽必须用 DRAM 体系:DDR5 → GDDR → HBM3 系统带宽已超 1TB/s。这是 AI 时代 DRAM 产业繁荣的原因——Nvidia GPU 严重依赖 HBM(时事例证:Blackwell GPU 延期 6~8 个月,瓶颈不在处理器而在 HBM 供应与先进封装)。结论:新兴 NVM 不可能取代 DRAM 的带宽角色。

多数新兴存储器是二端可变电阻,集成进阵列通常用 1T1R(1 个存取晶体管 + 1 个电阻)结构,类比 DRAM 的 1T1C:字线 WL 控制存取晶体管栅极,另有源线 SL 与位线 BL。工艺集成上,R 通常做在漏极接触通孔(drain contact via)上,按代工厂工艺可置于不同金属层之间(M1-M2、M4-M5 甚至 M6-M7)。
版图面积:W/L=1 时典型单元面积 12F²;最激进(借用 DRAM 竖直电容式版图)可到 6F²,但难度大。关键前提是最小尺寸晶体管够用——若电阻编程电流大、最小晶体管驱动不足,必须加大 W/L → 单元面积膨胀至几十 F²(MRAM 实际可达 ~50F²)。单元面积取决于"晶体管需要给电阻提供多大电流"。

读写方案(双极性为例)P1 00:56:23:SET——开选中行 WL,BL 加正脉冲 V_SET(SL 接 0),电流正向流过器件写入低阻态;RESET——反转极性,脉冲加在 SL(V_RESET),电流反向写回高阻态(注意阵列中仍存在半选单元的偏置问题);READ——开 WL,BL 加远小于写电压的 V_READ,电流送入灵敏放大器判别。

微缩挑战:写电流太大 P1 00:57:37。文献统计(编程电流 vs 技术节点散点图,叠加 W/L=1/2/3 晶体管驱动能力曲线,约 45/32nm 工艺):PCM 需数百 µA 甚至 >1mA(焦耳热熔化材料);MRAM 约 200µA 量级;RRAM 较低但典型仍 >100µA。节点越小电流总体越低,但典型 >100µA 仍超过最小尺寸晶体管(甚至 W/L=2~3)的驱动能力 → 必须用大晶体管 → 面积惩罚到几十 F²。理想目标:编程电流降到 ~10µA 量级才完美——此问题对今天的 PCM/MRAM/RRAM 依然成立。

若去掉存取晶体管、仅把电阻置于互相垂直的 WL/BL 交点 → 单元面积 4F²((F+F)×(F+F)),密度堪比 2D NAND——这就是 cross-point / crossbar 阵列。
核心问题 P2 00:00:04:纯电阻网络中没有晶体管提供的非线性截止,加压后电流会在整个网络里乱流(sneak path 漏电通路),无法定位单元 → 必须在每个交点把选择器(selector)与存储电阻垂直串联(整体夹在 WL 与 BL 之间),靠类似二极管/双向二极管的非线性来截止未选中单元的电流。
适用性:还要求存储元件本身有高开关比(on/off ratio)来保证感测裕度。STT-MRAM 开关比仅约 2,太低,漏电通路会淹没信号 → crossbar 一般只适用于 RRAM 和 PCM;STT-MRAM 必须用 1T1R 切断 sneak path。

V/2 写方案(双极操作)。RRAM 双极操作:正电压 SET(HRS→LRS,写"1"),负电压 RESET(LRS→HRS,写"0")。


V/3 写方案 P2 00:09:30:写 1 时选中行加 VW、选中列接地;所有未选中行加 VW/3、所有未选中列加 2VW/3。逐单元验证电压:
V/2 vs V/3 对比(重点,作业/考题会要求计算两种方案的总功耗):V/3 方案中除选中单元外所有单元都承受 VW/3——干扰电压更小但波及全阵列、所有单元都流电流,功耗更高;V/2 方案只有选中行/列上的单元承受 VW/2——干扰更大但范围小,完全未选中单元 0V 不耗电。即 V/3 写干扰更小、功耗更高;V/2 功耗更低、半选干扰更大。RESET 同理反转极性。


读比写简单(无需抑制操作),可以一整行并行读出;读电压 VR 远小于写电压(如写 3V、读 <1V)。两种感测方式:
补充(课堂问答):寄生电容只影响速度(信号传播变慢),不会损失感测裕度;电阻才会产生压降。感测放大器晶体管级电路留到阵列级设计课。

交叉点阵列的两大寄生问题:① sneak path——纯电阻网络中电流流经未选中单元形成旁路;② 互连电阻——WL/BL 金属线每个单元段都有寄生电阻(还有寄生电容),引起 IR drop。若单元是纯电阻(RRAM),无法阻断漏电通路——没有选择器,交叉点存储阵列无法工作。

理想选择器 P2 00:21:08:RRAM/PCM 本质是变阻器,I-V 是两条不同斜率的直线(LRS/HRS)。理想选择器要在 I-V 中引入非线性:低于阈值电压电流可忽略、高于阈值完全导通——一个两端的理想开关(双极操作需正负两侧都有阈值)。与 1T1R 对比:晶体管也提供开关功能但是三端器件;选择器的本质是两端开关。1S1R 串联后的合成 I-V:阈值以下电流被截断(半选/未选单元无电流),阈值以上选择器全开、按存储器阻态分出两条电流曲线,在 VR 处仍可区分 1/0;要求 VR 高于选择器阈值 VT。

非线性比 N 的定义(重点,作业/考题) P2 00:24:45:对 V/2 写方案,
N = I(@VW) / I(@VW/2),且取低阻态(LRS)计算——因为半选单元阻态未知,必须按最坏情况(LRS、电流最大)评估。imec 指数型选择器实例(Govoreanu, ICICDT 2015)读数:I(@VW) ≈ 20µA、I(@VW/2) ≈ 1µA,N ≈ 20——不算大。直观含义:选中单元写电流 20µA 时,同行每个 LRS 半选单元各贡献约 1µA 漏电流。

现实中没有半导体器件能实现理想的突变开关,实际选择器分两类:
课堂问答:读成功后单元总会进入大电流状态,所以设计时始终按最坏情况(LRS 高电流)考虑。

两类选择器的四条设计结论 P2 00:33:52:① 选择器特性必须与 NVM 器件特性匹配(导通电压/写电压/读电压协同设计);② 串联选择器不可避免地抬高写电压(部分电压先用于打开选择器);③ 指数型 I-V 的读感测裕度劣化——on 态读电流同样被指数曲线压低;④ 阈值型 I-V 的读电压必须抬到选择器阈值之上,有读干扰 NVM 阻态的风险。
阈值型的完整图像是回滞:上扫沿阈值电压 VT 导通,下扫沿保持电压 Vhold(很小,~0.2–0.3V)退出。数值例子:写——施加 2V 跨 1S1R,选择器导通后只占 0.2V,剩余 1.8V 落在 RRAM 上,有利于写;读——读电压必须 >VT(如 1.2V),导通后选择器仅占 0.2V,剩余 1V 落在 RRAM 上——即使是读操作也有约 1V 跨在存储单元上,可能造成读干扰。结论:选择器设计非常 tricky、裕度极小,还要叠加器件变异与噪声——这是教授本人多年研究的难题。

选择器分类树:
| I-V 类型 | 器件 | 机理 / 备注 |
|---|---|---|
| 阈值型 | OTS(ovonic threshold switch,双向阈值开关) | 硫属化物、陷阱填充导通,3D XPoint 与 SOM 采用 |
| IMT(insulator-metal transition) | NbO₂ 绝缘体-金属转变,on/off 比小(10–100),无工业采用 | |
| 指数型 | MIEC(mixed ionic electronic conduction) | IBM 多年研发,机理未公开 |
| 隧穿势垒(tunnel barrier) | 多层氧化物能带工程,双向指数 I-V | |
| CBRAM 型(弱导电桥) | 故意做保持力差的导电桥存储器当易失开关(教授勘误:幻灯片归类有误,特性上更近阈值型) | |
| 整流型 | PN 二极管 | 单向导通,仅适合单极性 PCM;FEOL 工艺无法 3D 堆叠 |

PN 二极管(整流型):单向导通,只适合 set/reset 同极性的 PCM;Samsung 2012 年第一代 8Gb PCM 芯片即用硅二极管做选择器。但硅二极管是前道(FEOL)工艺,无法 3D 堆叠(顶层做不出单晶硅)。
隧穿氧化层选择器(指数型) P2 00:43:14:通过多层氧化物(如 TaOx/TiO₂/TaOx)能带工程实现非线性——低电压时隧穿电流需穿过整个叠层(电流很小);高电压时能带弯曲,只需隧穿一层(FN 隧穿型),电流指数增大。实例(W. Lee, GIST, VLSI 2012):JMAX > 10⁷ A/cm²、选择比 ~10⁴。教授指出文献定义问题:该文用读电压定义选择比是"错误定义",正确做法应以写操作为准——用 Vwrite 与 Vwrite/2 处电流之比,因为写是更严苛的最坏条件。

OTS(双向阈值开关) P2 00:45:02:基于硫属化物,与 PCM 同族(Ge-Sb-Te 类合金、配方不同)。机理未完全弄清,主流观点:深/浅陷阱相关的电子注入——高电压把陷阱填满后形成新导电通道而突然导通;导通电流不足以触发熔化/原子移动,是纯电子行为,因此易失。开关 vs 存储器的本质区别(课堂问答):开关回到 0V 后回到 off 态、不记忆;存储器回到 0V 后状态保持——OTS = "记忆性很差的 PCM",正好当开关用。snapback 的测量学解释:电压源扫 V 测 I → 电压连续、电流突跳("N 型"曲线);电流源扫 I 测 V → 电流连续、电压回缩,呈 "S 型" snapback——同一物理、不同测量方式。Samsung 数据(S. Kim, VLSI 2013):VT 与 VH 随膜厚(10/30/50nm)变化。

IMT 选择器 P2 00:50:15:代表材料 NbO₂,随温度在扭曲金红石(绝缘)与金红石(金属)结构间转变,转变温度约 1070K,产生突变 I-V。实例:E. Cha (POSTECH), IEDM 2013,~10nm 3D 垂直 ReRAM + NbO₂ 选择器。缺点:on/off 比仅 10–100,难以支撑大阵列,无工业采用。

CBRAM 型(弱导电桥)选择器 P2 00:51:11:CBRAM 中施加电压把金属(如 Ag)驱入氧化物(如 HfO₂)形成金属导电桥;存储器要求桥稳定,选择器反过来要弱导电桥——撤压后细丝自发溶解、回到 off 态。物理图像(成核理论):细丝半径 R < R₀ 时撤场后自发溶解(阈值开关行为),R > R₀ 时稳定(存储行为);溶解时间约 100ns–1ms。名义特性好(N 可达 10⁷),但变异性与可靠性差,从未量产。

选择器文献调研表 P2 00:52:51:
| 类型 | 材料叠层 | 电压范围 | 电流驱动力 | 非线性比 N | 耐久 | 文献 |
|---|---|---|---|---|---|---|
| 指数型 | Ni/TiO₂/Ni | ±4V | 0.1 MA/cm² | 10³ | >10⁶ | IEDM 2011 |
| Pt/TaOx/TiO₂/TaOx/Pt | ±2.5V | 32 MA/cm² | 10⁴ | >10¹⁰ | VLSI 2012 | |
| TiN/a-Si/TiN | ±3V | 1 MA/cm² | 1.5×10³ | >10⁶ | IEDM 2014 | |
| Ru/TaOx/W | −4V~+2.5V | 1 MA/cm² | 5×10⁴ | >10¹⁰ | IEDM 2016 | |
| MIEC(IBM) | ±1.6V | 50 MA/cm² | 10⁴ | — | IEDM 2012 | |
| 阈值型 | TiN/NbO₂/W(IMT) | 0.9–1V | 10 MA/cm² | 50 | — | IEDM 2015 |
| TeAsGeSiSe 基 OTS | 1.5–2V | 11 MA/cm² | 10³ | 10⁸ | IEDM 2012 | |
| SiTe 基 OTS | 0.6–0.9V | 10 MA/cm² | 10⁶ | 5×10⁵ | VLSI 2016 | |
| FAST(CBRAM 型) | 0.1–0.9V | 5 MA/cm² | 10⁷ | 10⁸ | IEDM 2014 | |
| Cu/doped-HfO₂/Pt(CBRAM 型) | 0.05–0.4V | 4.1 MA/cm² | 10⁷ | 10¹⁰ | IEDM 2015 |
关键指标:on 态驱动电流密度必须够大以提供编程电流(典型要求 >1 MA/cm²);电压范围要与所配 RRAM/PCM 匹配;还需长耐久(每次读都要开关选择器)。经验法则(back-of-envelope):N×N 交叉阵列要求非线性比 N > 阵列行数。例:1024×1024 阵列若 N=1000,未选中行约 1000 个单元的漏电流累加 ≈ 选中单元电流本身,将无法分辨 on/off——所以 N 必须显著大于行数(千行级阵列要求 N>1000),阵列越大要求 N 越大。

当 WL/BL 铜线宽度缩到 ~20nm 以下,铜电阻率激增。两大机理:① 表面散射——Cu 电子平均自由程约 39nm,线宽与之可比时电子更多撞到表面;② 晶界散射——细线晶界更多。后果:单元到单元每段线电阻 Rj 随线宽指数式上升——20nm 处约 10Ω/段,10nm 处达数百 Ω/段(5→25nm 区间 Rj 变化约 10⁴ 倍)。
危害量化:设 Ron ≈ 5kΩ,若每段 100Ω(F=10nm),约 50 段导线的串联电阻就等于 Ron——要给最远单元加 2V 写压,边缘驱动器需提供 4V。但这会毁掉 V/2 方案:4V 的一半是 2V,紧邻驱动器的最近单元上的半选电压就高达 2V,等于写电压,会误写它。IR drop 使设计裕度趋近于零。结论:线宽 <20nm 后除非互连材料有突破,交叉点阵列很难继续微缩。

写/读裕度的最坏情况分析与 SPICE 仿真 P2 00:59:22:写裕度最坏情况是离行/列电压源最远、且全阵列单元都处于 LRS 时的单元(Vaccess/Vdd 最小);读裕度最坏情况是 ΔI = Ion − Ioff 最小的最远单元。阵列是 m×n 的大电阻网络(含 Rj 与单元电阻),需构建网表做 SPICE 仿真(非线性比等效为把未选单元电阻乘以 N 倍)。仿真结论(S. Yu & P.-Y. Chen, IEEE SSCS Magazine 2016):写访问裕度 Access VW(%) 随阵列规模(64→1024)下降;非线性高(1000×)时 1024×1024 阵列仍可保 >80%,线性(无选择器)时几乎为 0、无法写入;写功率随 N 增大显著下降(线性 ~mW 级 vs 1000× ~100µW 级)——大非线性同时改善 IR drop 与功耗。

交叉点阵列设计挑战总结 P2 01:01:55:① 漏电通路降低写/读裕度;② I-V 非线性可抑制漏电通路,通常需要选择器;③ 线电阻造成互连压降,进一步降低裕度;④ 要维持裕度,需要更高的"单元电阻/线电阻"比值;⑤ 但提高单元电阻又会减小读电流感测裕度、增加访问延迟——多重权衡。

3D XPoint 是新兴存储器真正进入市场的范例。2015 年 Intel 与 Micron 联合宣布商用化:基于 1S1R 的双层(2-deck)交叉点堆叠,中间共享位线、上下两层字线。宣传点:非易失、高耐久、可堆叠、约为 DRAM 8–10 倍密度、改造 system memory 与 storage 之间的存储层级。发布时未披露细节,业界疑问(材料是否 PCM?选择器是什么?工艺节点?)由 TechInsights 买芯片逆向工程逐一解答。
TechInsights 逆向工程结果 P2 01:03:32:



密度与延迟定位:"somewhere in the middle" P2 01:08:05:vs DRAM——0.62 Gb/mm² 约为当时 Samsung 18nm DRAM 的 3.2 倍、Micron 20nm DRAM 的 6.6 倍;vs 3D NAND——仅为 Samsung 48L V-NAND TLC 的 24%、Toshiba/SanDisk 64L 的 18%(当时 3D NAND 已 3.4–5.6 Gb/mm²)。延迟(Intel 128Gb 芯片,ISSCC/IEDM 发表):F=20nm、2 decks、128Gb/die、16 个独立 bank、bank 访问 16B、读延迟 100ns/bank、写延迟 500ns/bank、写带宽 >35,000 MB/s/TB——比 DRAM(读 ~50–60ns)稍慢,比 NAND(读数 µs–数十 µs、写数百 µs)快得多。密度与延迟都介于 DRAM 与 NAND 之间——正是存储级内存(SCM)定位。

产品形态 P2 01:10:06:Intel 包装为 Optane(M.2 2280、PCIe Gen3×2、16/32GB,高端 SSD/存储级内存);Micron 对应产品为 X100 SSD(联合开发技术、各自出货)。
讲者对 3D XPoint 商业失败的分析("市场说了真话") P2 01:10:55
技术成功、生意失败——失败原因是业务而非技术。时间线:2020 年 Micron 首先退出(5 年销量不佳、停产);Intel 继续开发并演示了第二代 4 层(4-deck)堆叠(仍是逐层制造、非 bit-cost scalable);2022 年 Intel 宣布停止 Optane 产品线、整个团队解散(Intel 战略收缩聚焦逻辑/代工,SSD 业务卖给 SK Hynix)。
失败归因:定位高端 SSD 后遭 SLC 3D NAND 正面竞争——Samsung Z-NAND 用单层单元 3D NAND 把读速度推到 µs 级,性能与 XPoint 差距不大而 NAND 成本低得多;XPoint 性能略优但成本劣势明显、市场/应用优势不清晰。再叠加其逐层制造无法像 3D NAND 那样摊薄每位成本,商业模型走不通。这印证了第 8 节的论断:新兴存储器即便技术指标"介于中间",若没有清晰的成本/应用优势,仍难以在主流市场立足。

这条技术路线可能"卷土重来":SK Hynix 与 Samsung 启动 selector-only memory(SOM)——在 1S1R 中去掉相变存储层,直接把 OTS 本身当存储器用(机理留待 PCM 专题课,"从机理角度相当漂亮")。优势:少沉积一层材料、节省制造成本;工艺简化后潜在更快、更可靠。本讲(cross-point memory 部分)至此完结,后续将进入各新兴技术的专题深入。
| 术语 | 中文 | 释义 |
|---|---|---|
| Emerging NVM | 新兴非易失存储器 | 不依赖电荷、多靠移动原子/翻转磁矩或偶极存储数据的新型存储技术统称。 |
| Universal memory | 通用存储器 | 同时满足非易失、高密度、高速、低功耗等全部理想属性的假想存储器,至今不存在。 |
| Hysteresis | 迟滞 | 系统状态依赖历史的特性,是任何存储器"记住"数据的物理基础。 |
| Memory hierarchy | 存储层次结构 | SRAM 缓存→DRAM 主存→Flash 存储→硬盘的分级体系,按延迟/容量/成本折中。 |
| STT-MRAM | 自旋转移矩磁性 RAM | 用自旋极化电流翻转 MTJ 自由层磁化方向、以平行/反平行电阻态存数据。 |
| SOT-MRAM | 自旋轨道矩 MRAM | 用自旋轨道矩写入的 MRAM 变体,写速度可低于 1ns 但电流密度很高。 |
| MTJ (magnetic tunnel junction) | 磁隧道结 | 两铁磁层(CoFeB)夹氧化物隧穿势垒(MgO)的三明治结构,MRAM 的基本存储单元。 |
| Pinned / Free layer | 固定层/自由层 | MTJ 中磁化方向固定的参考磁层与可被写入翻转的磁层。 |
| PCM / PCRAM | 相变存储器 | 用焦耳热使硫族化物在晶态(低阻)与非晶态(高阻)间转换的存储器。 |
| Chalcogenide | 硫族(属)化物 | 含 VI 族元素(S/Se/Te)的合金材料体系,PCM 与 OTS 共用的材料家族。 |
| GST (Ge₂Sb₂Te₅) | 锗锑碲 | 最常用的相变材料,典型配比 2:2:5;XPoint 逆向分析为 Ge₀.₁₂Sb₀.₂₉Te₀.₅₄(Si₀.₀₅)。 |
| Amorphization / Crystallization | 非晶化/晶化 | PCM 的写(熔化+淬火成无序高阻态)与擦(加热结晶成有序低阻态)过程。 |
| Quench | 淬火 | 快速撤去热源使原子来不及回到晶格位置,从而冻结成非晶态。 |
| RRAM / ReRAM | 阻变存储器 | 靠氧化物中导电细丝形成/断裂改变电阻的二端存储器。 |
| Oxygen vacancy | 氧空位 | 氧化物中缺失氧原子形成的缺陷,排列成串即构成 RRAM 的导电细丝。 |
| Conductive filament | 导电细丝 | 由氧空位(或金属离子)连成的导电通道,存在为 LRS、断裂为 HRS。 |
| Tunneling gap | 隧穿间隙 | 细丝断裂后留下的绝缘间隙,决定 RRAM 高阻态阻值。 |
| LRS / HRS | 低阻态/高阻态 | 电阻型存储器中分别编码"1"(on)与"0"(off)的两个电阻状态。 |
| SET / RESET | 置位/复位 | 把器件从 HRS 切到 LRS(写 1)/从 LRS 切回 HRS(写 0)的写操作。 |
| Compliance current | 限制(钳位)电流 | SET 时由存取晶体管等限制的最大电流,防止器件永久击穿。 |
| Unipolar / Bipolar switching | 单极性/双极性开关 | SET 与 RESET 用同一极性电压(PCM)/ 必须用相反极性电压(STT-MRAM、多数 RRAM)的两类开关方式。 |
| Ferroelectric | 铁电体 | 介电体的子集,晶格不对称产生内建偶极,撤去外场后极化仍保持,可双稳存储。 |
| Polarization | (剩余)极化 | 铁电体内偶极整体排齐后在表面产生的净电荷,方向上/下编码数据。 |
| Double-well potential | 双势阱 | 铁电体能量-原子位移曲线的两个稳定极小值,对应两个极化态。 |
| FeFET | 铁电场效应晶体管 | 栅叠层集成铁电材料、由极化方向调制阈值电压的存储晶体管;回线与 Flash 相反(逆时针),场驱动写入、能耗仅 ~fJ。 |
| FeRAM | 铁电随机存储器 | 1T1C 结构、用铁电电容的瞬态翻转电流做破坏性读出的存储器。 |
| PZT / HfO₂ 基铁电 | 锆钛酸铅/铪氧基铁电 | 传统(容量停在 ~128Mb)与新一代(CMOS 兼容、Micron 已达 32Gb)铁电材料体系。 |
| Retention | 数据保持 | 非易失存储器保住数据的时间,典型规格 85°C 下 10 年。 |
| Endurance | 耐久性 | 可承受的写循环次数;新兴存储器典型 1E6~1E12,介于 NAND(~1E3)与 SRAM/DRAM(>1E16)之间。 |
| Embedded memory / eFlash | 嵌入式存储/嵌入式闪存 | 与逻辑同片集成的存储;eFlash 无法微缩到 28nm 以下,是新兴 NVM 切入车规 MCU 市场的突破口。 |
| MCU | 微控制器 | 汽车电子核心芯片,片上需数 MB 非易失代码存储。 |
| SCM (storage class memory) | 存储级内存 | 性能与密度介于 DRAM 与 SSD/NAND 之间的存储层级,IBM 提出,Optane 的市场定位。 |
| 3D XPoint | 三维交叉点存储器 | Intel/Micron 2015 年商用的双层 1S1R(GST PCM + OTS)存储技术,F=20nm;技术可行但商业失败。 |
| Optane | 傲腾 | Intel 基于 3D XPoint 的产品品牌(高端 SSD/内存模块),2022 年停止。 |
| SOM (selector-only memory) | 仅选择器存储器 | SK Hynix/Samsung 提出的去掉 PCM 层、直接用 OTS 兼作存储的新概念,省工艺、潜在更快更可靠。 |
| Fe-VNAND | 铁电垂直 NAND | 把 3D NAND 电荷俘获层替换为铁电层的研究方向(SK hynix/Samsung/Georgia Tech)。 |
| HBM | 高带宽存储器 | 3D 堆叠 DRAM,HBM3 系统带宽超 1TB/s,AI GPU 的关键瓶颈部件。 |
| 1T1R | 一晶体管一电阻 | 用存取晶体管选通可变电阻的存储单元结构,典型 12F²、最小 6F²,电流不足时膨胀至 ~50F²。 |
| 1S1R | 一选择器一电阻 | 选择器与存储电阻垂直串联构成的交叉点单元。 |
| W/L | 晶体管宽长比 | 决定驱动电流的尺寸参数;编程电流大时必须增大 W/L,牺牲单元面积。 |
| F (feature size) | 特征尺寸 | 光刻最小线宽,单元面积以 F² 为单位归一化。 |
| Cross-point / Crossbar array | 交叉点/交叉条阵列 | 存储元件直接置于垂直 WL/BL 交点的无晶体管阵列,单元面积 4F²。 |
| Selector | 选择器(选通器) | 串联在交叉点单元中的两端非线性开关器件,用于截止未选中单元电流。 |
| Sneak path | 漏电通路(潜行通路) | crossbar 中经未选中单元的寄生电流路径,无选择器时使读写无法定位。 |
| On/off ratio | 开关比 | 高阻态与低阻态电阻之比;STT-MRAM 仅约 2,故不适合 crossbar、需 1T1R。 |
| Half-selected cell | 半选单元 | 位于选中行或选中列上、承受部分写电压(V/2 或 V/3)干扰的未选中单元。 |
| V/2 write scheme | 半压写方案 | 未选行/列加 V_W/2,半选单元承受 V_W/2、完全未选单元 0V 的写偏置方案(功耗低、干扰大)。 |
| V/3 write scheme | 三分之一压写方案 | 未选行加 V_W/3、未选列加 2V_W/3,全部非选中单元仅承受 V_W/3 的写偏置方案(干扰小、功耗高)。 |
| Write inhibit | 写抑制 | 通过偏置使不应被写的单元免于编程(类比 NAND 的 inhibit)。 |
| Current / Voltage sensing | 电流/电压感测 | 读出方式:测位线电流大小,或预充位线后测其放电速率。 |
| Virtual ground | 虚地 | 感测放大器输入端保持近 0V 的电流汇入节点。 |
| S/A (sense amplifier) | 灵敏(感测)放大器 | 读取时分辨高低电流/电阻从而判别 1/0 的电路。 |
| IR drop | 电阻压降 | 电流流经互连线电阻造成的电压损失,恶化最远单元的写/读裕度。 |
| Nonlinearity ratio (N) | 非线性比 | N = I(@V_W)/I(@V_W/2)(取 LRS、最坏情况),衡量选择器抑制半选漏电的能力;需大于阵列行数。 |
| Threshold I-V | 阈值型 I-V | 超过阈值电压突然导通的选择器特性(OTS、IMT)。 |
| Exponential I-V | 指数型 I-V | 电流随电压指数变化的选择器特性(隧穿、MIEC 等)。 |
| Rectifying I-V | 整流型 I-V | 单向导通特性(PN 二极管),仅适用于单极性操作的 PCM。 |
| Hold voltage (V_H) | 保持电压 | 阈值开关导通后维持 on 态所需的最小电压(远小于 V_T),导致读时大部分电压落在存储单元上而产生读干扰。 |
| Snapback | 回缩/骤回 | 阈值开关导通瞬间电压回落的现象;电流源扫描时表现为 S 型 I-V。 |
| OTS (ovonic threshold switch) | 双向(奥弗辛斯基)阈值开关 | 基于硫属化物的易失阈值开关,3D XPoint 的选择器,机理与陷阱填充相关、纯电子行为。 |
| IMT (insulator-metal transition) | 绝缘体-金属转变 | 材料(如 NbO₂,~1070K)随温度在绝缘/金属相间切换的开关机理,on/off 比小(10–100)。 |
| MIEC | 混合离子电子导电 | IBM 开发的指数型选择器机理(细节未公开)。 |
| CBRAM (conductive bridge RAM) | 导电桥存储器 | 金属离子(Ag/Cu)在氧化物中形成导电细丝的存储器;细丝弱化(差保持力)即可当易失选择器。 |
| Poole-Frenkel conduction | 普尔-法兰克传导 | 陷阱辅助的载流子发射传导机制,OTS off 态的主导机制之一。 |
| FN tunneling | FN 隧穿 | 高场下经三角势垒的隧穿,隧穿氧化层选择器高压导通的机制。 |
| Drive current density | 驱动电流密度 | 选择器 on 态可提供的电流密度,需 >1 MA/cm² 以支撑编程电流。 |
| Surface / Grain boundary scattering | 表面/晶界散射 | 纳米线宽下 Cu 电阻率上升的两大机理(Cu 平均自由程约 39nm)。 |
| Worst-case analysis | 最坏情况分析 | 以离驱动器最远、全阵列 LRS 的单元评估写/读裕度的方法。 |
| Write access margin | 写访问裕度 | 最远选中单元实际分得的 V_W 占边缘驱动器输出 V_W 的百分比。 |
| CMOS under array | 阵列下 CMOS | 外围电路置于存储阵列下方以提高面积效率的设计(XPoint 阵列效率 91.4%)。 |
| Bit-cost scalable | 位成本可缩 | 3D NAND 式一次光刻多层降低每位成本的堆叠方式;3D XPoint 逐层制造,不具备此特性。 |
| SLC NAND / Z-NAND | 单层单元 NAND | 每单元 1 bit 的高速 3D NAND(Samsung Z-NAND 读达 µs 级),以低成本挤压了 Optane 的市场空间。 |
| Single event upset | 单粒子翻转 | 辐射粒子使存储节点数据翻转的效应;SRAM 微缩后更敏感,磁性/原子型存储器天然免疫。 |
| Quantum point contact | 量子点接触 | 在两电极间放置/移除单个原子形成/断开导电桥的实验,证明单原子存储原理可行。 |