Research Themes
Research on Frontier Technologies in Data Center and Server
Background
EBS云盘是云服务的重要基础产品之一,作为承载数据持久化的重要一环,其性能和稳定性极大程度上决定了云上业务的整体应用性能。当前,云存储普遍采用分布式存储架构,数据读取所需要的分段、校验、备份、重聚合等等都需要多节点之间的交互和协作,因此对于承载数据传输的网络需要具备极高的性能,才能满足业务对于端到端的时延和吞吐的诉求。例如,云上业务普通使用的高性能OLTP、KV数据库需要依赖云存储提供高性能数据存取服务,云盘也要求有高可靠性和弹性能力。
随着阿里云全球业务的规模和业务的增长,业务对于云存储的性能要求也在不断提高。当前ESSD AutoPL承诺提供最大百万IOPS和100微秒的时延,而最新推出的ESSD PL-X存储产品能提供300万IOPS和30微秒的延迟,对极致性能的追求也在不断演进。同时,性能长尾问题长期困扰存储网络,作为对外售卖的产品,时常受到来自客户的反馈和与竞争对手的对比。例如,近来有多篇技术论坛和公众号测试了阿里云和AWS存储性能的对比,发现阿里云平均延迟和IOPS相差无几甚至略好于AWS,但是长尾的延迟抖动严重达3~4倍之多,使得业务的整体性能严重下降,甚至吞吐下降了近一倍。因此深入云盘处理各个环节,分析长尾的成因,并设计针对性的优化方案就变得尤为重要。
云存储的整个IO周期经历多个处理节点,包括客户端VM侧的Virtio-Block/NVMe调用,中间经过虚拟化层,整机/盘级别/Segment级别的调度,最后通过存储网络协议栈封装为RPC请求发送至后端存储集群中的Block Server。Block Server经过内部流控调度后发送至集群内的Chunk Server。Chunk Server内部经过调度控制,最终真正与磁盘进行交互。整个处理流程设计两跳网络,三个核心处理单元,以及多处不同层面资源限制引入的调度。其中任何一处的处理异常都会导致最终的端到端延迟升高。对整个EBS进行整体性分析,全面梳理其处理流程和细节,才能最终从端到端优化长尾性能。
Target
1. 对线上实际EBS存储集群的IO耗时以及分段耗时进行系统性的测量。明确在不同典型场景下IO长尾具体发生在哪些地方。
2. 分析处理流程中的瓶颈机制设计,包括(1)前端TDC的处理流程(2)Block Server的处理流程(3)Chunk Server的处理流程。通过仿真与实际系统验证相结合,分析长尾根因;并设计针对性的处理流程优化机制。
3. 分析两跳网络传输中的瓶颈。通过仿真与实际系统验证相结合,分析长尾根因;并设计针对性的存储网络优化机制。
Related Research Topics
l 数据中心高性能网络拥塞控制、负载均衡、流量调度。
l RPC通信优化。
l 高性能云盘流量调度。
l 分布式系统故障快速诊断与恢复。