在语言大模型(LLM)、推理大模型(如DeepSeek)等AI应用爆火的当下,数据存储和访问速度、模型训练与推理效率等相关话题也逐步升温,SSD在其中扮演着不可或缺的角色。跟随本栏目,快速了解SSD存储正在进行着哪些变革。
上期我们对QLC SSD、TLC SSD以及HDD分别进行了优势对比,并得出了成本分析。本期将重点介绍QLC SSD在设计上存在的诸多挑战及解决之道。
从硬件设计及成本上考虑,高密度QLC SSD存储容量增加时,其配置的DRAM容量通常不变,这意味着盘内单位扇区(Indirect Unit)会变大。
例如,标准的4TB TLC 4KB扇区SSD需要配置4GB DRAM来保存L2P表。对于64TB QLC SSD若其DRAM的配置容量保持不变,则必须使用64KB扇区。此时如果执行一个4KB的随机写IO,则需要执行“读-改-写”的过程,这将产生16倍的写放大。而TLC SSD的4KB随机写则无此问题。
因此,尽管QLC SSD大尺寸连续写性能与TLC SSD持平,但是其4KB随机写性能远低于TLC SSD,根源在于其内部扇区更大。
在操作系统下发给SSD盘的读写请求中,尺寸小于4KB的请求较为少见,而实际运行中4KB的读写请求数量却不少,主要源于以下几个方面:
l 块设备接口的逻辑扇区(LBA)尺寸是512B或者4KB;
l 主流操作系统的内存页面的尺寸设定为4KB;
l 文件系统的空间分配单位通常不小于4KB。
针对这些问题,操作系统的内存管理和文件系统正在积极修改,以适应更大的SSD内部扇区尺寸,随着时间的推移,技术将逐步演进成熟,更好地支撑大型内部扇区。
另外,当前的DWPD测试标准是基于JEDEC JESD218制定的,采用4KB写负载进行评估。虽然4KB写负载并不能准确模拟实际应用中可能出现的各种工作负载,但是DWPD仍然是评估SSD性能的重要指标,因而必须坚持使用统一的测试标准。考虑到QLC SSD的盘内扇区较大的特性,在这一测试标准下,DWPD测试结果通常会显得较为逊色。
解决此类现象的思路包括对DWPD测试标准进行调整,使用更加适合QLC SSD特性的写负载进行评估,或者针对QLC SSD制定专项的测试规范,结合其特有的存储单元结构和写入机制,以便更准确地反映QLC SSD在不同使用场景下的表现。行业内的标准化组织也能尽早推动,形成能够覆盖不同NAND类型的综合性测试标准,以体现更公平的性能评估。
目前大容量的SSD普遍采用TLC或QLC NAND,一般会采用16~32颗NAND FLASH颗粒。颗粒数量的增加会带来整盘的器件布局、PCB堆叠设计的挑战。
一般企业级的SSD,主要器件包括1颗SoC,5-10颗DDR(含ECC),多颗NAND FLASH颗粒,备电电容等。要在有限的空间内实现,对PCB的布局密度提出了更高的要求。
表1、常见企业级SSD硬件形态
在极端的场景下,例如9颗DDR+32颗NAND FLASH,单层PCB已经无法放下, 此时就需要用两层或者更多层PCB堆叠来实现,PCB通过柔性PCB或者接插件链接。比如忆联 UH610 SSD,采用了高密布局和两层PCB堆叠来实现。
图1、忆联UH610采用柔性PCB
此外,大容量SSD的NAND颗粒一般采用ODP或HDP的封装,也就是一个颗粒(package)会封装8个或者16个Die。对于HDP来说,芯片的高度就会稍高于采用ODP、QDP等Die数较少的封装形式,进而影响结构的堆叠设计。
对于单个SSD来说,虽然最大功耗的上限是固定的,但是由于降额的要求,最大功耗场景在一般的业务运行过程中很难出现,我们需要更多关注的是业务场景下的“典型功耗”。
表2、各硬件形态SSD最大功耗
一方面,受限于供电、散热和SI,即使是大容量的SSD,其最大性能仍略低于普通容量的SSD。但在典型的业务场景下,两者可达到的性能是基本一致的。SoC的功耗主要取决于性能,因此对于某一款具体的SoC而言,相同业务压力下的功耗,可以认为是基本不变的。
另一方面,随着SSD容量的增加,采用的介质(NAND FLASH)不论是Die的数量,还是单Die的容量,均会增加。采用4KB FTL(Flash Translation Layer)粒度的标准SSD,为了支撑更大的物理容量,FTL表项数量也会随容量成比例增加,带来DDR颗粒的容量或数量增加。NAND FLASH和DDR颗粒的增加,不论是数量,还是总的Die面积(即规模)增加,都会使漏电流随之变大,进而导致SSD静态功耗增加。因此整盘的功耗会随着容量增加而增大。
图2、2TB和16TB SSD 14G带宽顺序读功耗分布
从单个SSD的角度来看,布局密度增加以及PCB的堆叠设计,增加了SSD的风阻,带来了更高的风压,风量就会降低,用于热交换的空气变少,导致SSD温度升高。
图3、阻力越大,风量越小
SSD上的器件(NAND、DDR等)功耗增加,会使流经SoC的空气,被更多的加热;外壳壳体也会被加热到更高的温度,也会使SSD温度升高。
对于一个系统来说,不论是服务器还是专用的存储设备,散热都需要满足SSD的最大功耗的要求。但是如前面分析,我们更应该关注“典型功耗”。大容量SSD的典型功耗增加,意味着同样业务性能下,需要更高的风扇转速或者液冷工质流速,提供更多的风量或流量散热。
综上所述,QLC SSD在逐渐崭露头角的同时,也在不断攻克内部扇区尺寸、布局与堆叠、功耗与散热等设计上的挑战,这些创新也为QLC SSD的进一步应用铺平了道路。
随着市场对存储解决方案需求的不断演变,QLC SSD将会在哪些业务场景中取得领先优势,又将如何推动存储技术的进一步发展呢?敬请持续关注本系列文章。