近年来,随着互联网、大模型、IoT等技术的发展,相关应用的规模也迅速增长,由此产生了大量数据存储和处理需求。据估计【1】,2023年全世界产生了147 ZB数据,到2025年这个数字将变成181 ZB。不仅数据量快速增长,大模型、HPC等应用对性能要求也很高,传统大容量HDD无法满足。在此背景下,2024年大容量QLC SSD的市场份额得到了快速增长。
本期开始我们将分为三期围绕QLC SSD的优缺点、应用收益、设计难点,以及适用场景等方面展开讨论。
本文选取了两个有代表性的QLC SSD和TLC SSD盘片进行对比【1,2】。
QLC SSD的单盘最大容量为61.44TB,而典型TLC SSD的最大容量为7.68TB。存储相同数据量,QLC SSD占用更少的机架空间。在单盘故障的情况下,QLC SSD的影响范围也更大。因此,QLC SSD更适合用在具有多盘之间数据冗余保护的系统中,如全闪阵列、全闪分布式存储等。在这样的系统中,单盘失效不会导致整个系统业务断供。
◎图1:典型QLC SSD与TLC SSD对比
尽管QLC SSD的单盘功耗更大,但由于其单盘容量更大,因此QLC SSD每个TB的平均功耗更小。典型QLC SSD平均每TB功耗为0.2W,而TLC SSD平均每TB的功耗为1.1W。按照一台服务器配置12片SSD、服务器(不含SSD)功耗500W计算,QLC SSD的整系统每TB功耗是0.9W,而TLC SSD为6.5W,两者之间相差悬殊。
QLC在每个cell中存储4 bits信息,相比TLC的信息存储密度更高。但是QLC的擦写次数相对TLC更少,这导致QLC SSD的耐久性比TLC SSD差一些。典型QLC SSD的DWPD值为0.58,而TLC SSD的DWPD为1,相差并不悬殊。
大尺寸顺序读写请求的性能与小尺寸(4KB)随机读性能,QLC SSD与TLC SSD均基本持平。
4KB随机写性能,QLC SSD只有TLC SSD的五分之一左右。QLC SSD只有38K IOPS,而TLC SSD达到了200K IOPS。下一期将详细解释造成这种差异的原因。
从以上对比可以看出,大容量QLC SSD特别适合数据量大、存储成本敏感、性能要求高、且读多写少的场景。
◎图2:典型QLC SSD与HDD对比
如图2所示,与QLC SSD相比,HDD的最大容量小很多。HDD的顺序读写和随机读写性能与QLC SDD相比都差很多。HDD的单盘功耗小一些,但是每TB平均功耗比QLC SSD差很多。
虽然HDD没有每日写入数据量(DWPD)这个指标,但是HDD有一个workloads rate指标,例如Ultrastar® DC HC560的workloads指标是每年最多550TB。如果读出和写入的数据量超出workloads值,那么HDD的性能会降低,并且可靠性指标年故障率(AFR)也会上升。如果把workloads视为DWPD,那么这款HDD的DWPD只有0.075,这与QLC SSD的0.58相差很大。
与HDD相比,QLC SSD每TB价格高,QLC SSD另外一个短板是数据保持时间短一些,断电之后QLC SSD的数据可靠保持三个月左右,超过三个月就有数据丢失风险。如果不断电,而是让QLC SSD一直处于带电空闲状态,则没有数据丢失风险。
未来在很长一段时间内,HDD在每TB采购价格上仍然显著优于QLC SSD。但是,QLC SSD的每TB功耗更低,在很多应用场景中,QLC SSD的总体拥有成本比HDD更低,下面以一个100PB对象存储系统为例来说明。
对象存储用来保存图片、视频等数据,数据量特别大,对性能要求不高,对存储成本要求比较苛刻。因此,现在大多数对象存储是基于HDD的,或者用少量SSD做缓存,完整数据存储在HDD上。
由于对象存储的易用性和可扩展性很好,公有云上对象存储价格比块存储便宜很多,越来越多上层应用把数据保存在对象存储中。例如,很多公有云上的在线分析型(OLAP)数据库的数据就保存在对象存储中。因此,未来势必会对对象存储提出更高的性能要求,除了顺序访问的吞吐量要求之外,还会提出更高的IOPS要求。
下图是一个100PB的对象存储系统,使用不同硬盘来构建,其结果差异很大。其中三种硬盘分别是3.5寸20TB HDD、61.44TB QLC SSD、7.68TB的TLC SSD。可见使用QLC SSD的对象存储系统所需的服务器数量、机架数量都更少,能耗也更低,性能却高很多。随着价格逐渐降低,高密度QLC SSD将会逐渐进入对象存储系统,逐步替代HDD。
◎图3:100PB对象存储系统使用不同盘的情况对比
利用硬盘模拟磁带机的在线备份系统,写入数据量大,对存储空间成本要求苛刻。传统观念认为,在线备份只能使用HDD,SSD无法满足成本要求。但是,大容量QLC SSD成本下降到一定程度时,会在大部分在线备份系统中替代HDD。
◎图4:100PB对象存储系统用不同盘的机架数量对比
研究表明【4】,在一个10PB存储容量的大模型应用环境中,相较于 HDD 和 TLC SSD 混合系统,完全采用 QLC SSD 的系统在能耗效率方面优势显著,足足高出 79.5%。
综上对比,QLC SSD、TLC SSD以及HDD三种盘型中,QLC SSD在单TB上的平均功耗更小、存储密度更高,在对象存储等系统中总TCO更低,这些都将推动存储的更新换代。
参考链接:
1.https://explodingtopics.com/blog/data-generated-per-day
2.https://www.solidigmtech.com.cn/products/technology/d5-p5336-product-brief.html
3.https://download.semiconductor.samsung.com/resources/data-sheet/Samsung_SSD_PM9A3_Data_Sheet_Rev1.0.pdf
4.https://signal65.com/wp-content/uploads/2024/12/Solidigm-100MW_Signal65-Insights.pdf