FAST 2021 overview

论文总览

RemapSSD

背景:在重删等重映射场景下,正向映射与反向映射不一致,因此需要以日志的方式来维护反向映射的更新。在GC的时候需要扫描整个日志区,开销很大。

主要思想:使用一个专用的NVRAM,为每个Block维护自己的日志。因此GC时只需要扫描一个很小的数据集。

适用于所有remap场景,性能和扩展性很可观。

D2FQ

背景:低延迟的存储设备出现,使得性能瓶颈从I/O设备转向CPU开销

  • 低延迟存储设备相关研究

  • 优化软件延迟的相关研究

主要思想:将I/O调度 offload 到 SSD,利用NVMe WRR(Weighted Round-Robin)特性,实现公平队列。

动态调整WRR关键参数 H/L 权重比:fairness权重范围和tail latency之间存在权衡。

  • I/O fairness差时,增加H/L

FlashNeuron

背景:数据量不断增大,内存容量增长受限。以闪存为中心的大数据处理框架。GPU内存容量远小于训练集的输入/中间结果

传统方法:buffering on CPU memory。然而当CPU也有其他任务争用的时候,会导致性能急剧下降。

核心思想:

NHC

背景:NVMe设备的出现,使得相邻存储层(比如DRAM与SSD/HDD)之间的性能差距缩小,甚至出现性能重合。传统的算法都是最大化缓存命中率,这样会忽略容量层的性能。在新的存储架构下,不应该再追求缓存命中率,而应该找到一个合适命中的比例,以充分利用底层设备的性能。

核心思想:将部分读请求卸载到容量层,以充分利用容量层的性能。

An In-Depth Study of Correlated Failures in Production SSD-Based Data Centers.

背景:SSD称为数据中心的主流存储介质,理解其现场失效特征有助于提高数据中心可靠性。本文重点研究SSD结点之间的关联失效

SSD型号、工艺

核心思想:

A community Cache with Complete Information.

背景:一个数据集群承载多个数据分析集群,共享缓存可以节省缓存空间和网络带宽;数据分析任务具有可预测性:I/O行为、执行时间

核心思想:将目标从最大化Cache命中率,变为最小化整体运行时间

  • 允许部分缓存数据集,使得stage的执行时间可调控

  • 优先缓存慢的stage inputs,最小化stage set的执行时间(优先优化最慢的任务)

Evolution of Development Priorities ...

REMIX

Tiered Compaction实际上是延迟了compaction

ROART

针对persist memory进行优化

Behemoth

CheckFreq

The dilemma between Deduplicaiton and Locality: Can both be Achieved?

重删之后的数据布局,最小化GC带来的影响。

SPHT

pFSCK

解读

新型存储设备应用和系统优化(周游-副研究员)

热点:新型存储介质/设备应用与系统优化

挑战与机会:分布式系统环境下,新型存储设备相关研究

缓存算法设计目标:不再追求命中率,而是结合软硬件特性来优化整体性能

新型存储系统性能优化与一致性保证

优化目标的演进

  • 写放大

  • 空间放大

  • CPU瓶颈

  • 新技术

    • OOCssd

    • NDP

    • SCM

Last updated

Was this helpful?