1. 解决方案

1.1. 系统架构

整体系统架构如下图所示,底层存储采用一粒云分布式对象存储解决方案,满足生产PACS系统,读取和保存和文档存储和管理的需求。

架构说明:

  1. 底层存储改造成云存储池架构,云存储具备NAS接口,便于文件的共享和统一管理。
  2. 影像发布系统直接读取热存储池近一年的影像数据,并且无需生产PACS进行影像复制,节省存储资源,并加快了PACS系统的运行效率。

      3. 云存储池可以直接设置归档策略,无需上层系统进行数据分级归档。  1年之内影像存储在热存储池,1年前的影像根据生命周期管理自动迁移到成本更低的冷存储池。

本项目规划云存储池是一个完全去中心化,适合海量文件和大容量存储能力的分布式对象存储系统,完全可以实现以下功能:

  • 支持大容量硬盘;
  • 兼容FTP/文件接口和NAS异构,实现业务数据的平滑迁移。
  • 支持分布式的元数据架构存储。
  • 支持7*24小时的业务连续性,支持在线升级,扩容等变更不对业务造成影响;
  • 分布式存储系统提供对象存储功能,能够通过S3接口和PACS系统、文档管理系统结合提供数据存储空间;
  • 支持文件多版本、CDP和快速回滚,实现非结构化数据免备份,解决磁带库备份性能差和调取慢的问题;
  • 支持多数据中心容灾,并支持数据中心AA模式,实现业务的就近读写访问
  • 支持全界面化的存储运维和运营;

1.2. 方案设计

3.2.1. 容量规划方案

存储设备的最终裸容量P的计算应该综合考虑业务可用容量需求p,硬盘折损率r,以及副本或纠删码(2+1)的可用空间率s,其中,硬盘折损率r的计算公式为:

r=(1000/1024)4= 0.91

两副本的可用空间率s1:

s1=1/2=0.5

纠删码的可用空间率s1:

s2=2/3=0.667

裸容量P和可用容量p,以及硬盘折损率r,纠删码可用空间率s之间的关系是:

p=P*r*s

因此裸容量(按硬盘厂商的规格计算)可用通过如下公式进行计算:

P=p/(r*s)

考虑到未来影像数据的增加和影像清晰度的要求,影像需调阅原图。 PACS系统规划的热存储池可用容量100TB(保存一年的数据),由于读写性能要求比较高,建议采用两副本存储方案。而且主要是小文件频繁读写,为了综合考虑成本,存储主要采用SATA机械盘,利用两块SATA SSD做一些关键元数据存储加速。

热存储池的裸容量计算公式如下:

P=100TB/(0.5*0.91)=220TB

冷存储池由于读写性能要求没有热存储池高,建议采用EC纠删码存储方案,数据统一存储在冷存储池,存储服务器可以考虑多盘位的服务器,降低存储硬件成本。

裸容量计算公式:P=400TB/(0.91*0.667)=659TB(保存1年前的数据)

3.2.2. 高性能方案

对象存储采用摒弃传统文件系统繁琐复杂的索引组织结构,采用以哈希算法为核心寻址方案,利用计算而非查询的方式很好的解决了XX医院影像文件在上亿规模条件下的调阅慢问题。将传统文件存储的千万级规模扩展至亿级别甚至百亿文件规模。

同时对象存储利用SSD将所有元数据,包括DHT、文件系统元数据全部永久缓存在SSD设备中、以及小文件合并技术,保证底层存储层面,海量文件情况下的性能和性能稳定性。

为此建议在每台服务器上配置固态盘,用于持久化存储MOS系统端到端的元数据,以实现性能的最优化。

3.2.3. 存储容量扩展方案

服务器在线扩展

考虑到未来的影像数据爆发式增长,PACS云存储池只需将服务器新节点和原有集群置于同一网络, 通过图形控制台将新节点添加到集群中即可。扩展后,新增节点的计算和存储资源会自动立即生效,整个扩展过程都是在线完成,不会影响正在运行的业务。

全局自动负载均衡

当一个新节点或磁盘加入集群时,基于分布式存储的架构能立即检测并自动启动数据均衡机制,通过算法无缝地将其他节点的部分数据迁移到新节点或磁盘上,实现全局自动负载均衡。整个数据迁移和均衡过程涉及到尽可能少的数据,确保不会影响应用对数据的正常访问,提升系统稳定性和性能。

支持扩容异构节点

服务器节点扩容时支持兼容异构硬件,与其他分布式存储系统要求相同资源规格不同,计算和存储资源支持不同规格和硬件配置,以及不同硬盘数量和存储容量的节点混合部署。同时,服务器节点也支持各种介质的本地存储,包括磁盘,SSD盘,PCIe flash卡等。

3.2.4. 历史全量数据迁移方案

对象存储支持对现有的PACS存储进行纳管,PACS系统可以统一使用S3接口,同时访问对象存储及现有存储的数据,现有存储仅处理读请求,写请求由云存储池来处理。

对象存储还提供数据迁移工具,可以将NAS数据平滑迁移到对象存储,工具将迁移的文件和MD5值记录到外部的数据库,完成迁移后,通过数据库记录的信息与NAS数据或者与业务系统的数据库表进行核对,以保证数据迁移后的一致性。

对象存储采用扁平化存储结构,只支持一级目录。但的对象名支持’/’’\’的特殊字符作为对象名,而且长度大支持4KB。原NAS中的路径可通过将各级子目录和文件名组成成一个超长对象名保存,从而业务系统依然可以通过完整路径访问文件,保持兼容性和透明性。

3.2.5. 数据归档方案

病人在拍完片后的一年时间内,复诊周期长,影像访问频度高,对性能要求高,之后访问频率变低,访问性能要求比较低。一年新增的影像数据量非常大,希望降低存储成本。同时兼顾文件的访问性能和降低海量数据存储成本,建议利用一粒云云存储池的文件生命周期管理机制,将存放时间超过设定周期的文件迁移到纠删存储池以降低冷数据存储成本,且可针对每个不同的桶灵活定制不同的策略。

热存储池推荐采用配置比较高的服务器,冷存储池推荐采用相对容量比较大的磁盘,通过物理故障域隔离方案物理隔离存储,由于集群规模较大,可以有效降低存储成本。

本项目规划部署7台服务器。4台服务器组成热存储池,3台大容量服务器组成冷存储池,设置生命周期管理策略,一年之前的数据自动迁移到冷存储池,

3.2.6. 数据检索方案

对象存储具有把影像元数据和数据以对象的方式进行存储。本项目规划在冷存储池部署一套检索集群,抽取影像文件相关的元数据(病人ID、姓名、年龄、 拍片日期等)同步到检索集群的分布式数据库中,进行存储并提供给临床科会诊系统或其他系统进行检索和读取。

3.2.7. 安全可靠性方案

对象存储将多台服务器上的本地磁盘整合起来,形成一个大规模存储资源池,无须借助服务器的本地RAID技术,而是通过纠删码(Erasure Code,EC)方法,将数据均匀、冗余地分布到不同服务器的不同硬盘上,当硬盘或服务器出现故障时,上层业务仍能够从其它服务器或硬盘正常访问数据。

网络传输安全

对象存储支持标准S3协议,并完全满足S3协议关于安全的访问要求,具体而说包括以下几个方面的安全:

传输安全: 一粒云分布式存储支持文件MD5校验,保存文件传输正确性。

网络防窃听:数据数据内容进行加密传输。

防止网络篡改: 对摘要数据进行电子签名认证,防止数据篡改;

服务器及磁盘安全

将多台服务器上的本地磁盘整合起来,形成一个大规模存储资源池,无须借助服务器的本地RAID技术,而是通过副本技术,将数据均匀、冗余地分布到不同服务器的不同硬盘上,当硬盘或服务器出现故障时,上层业务仍能够从其它服务器或硬盘正常访问数据。

本次规划在单个数据中心部署分布式对象存储平台,数据保护方案采用2副本,冷池采用EC纠删码(2+1)。

图:副本和纠删技术原理示意图

3.2.8. 备份方案

备份的目的是解决文件误删除、误覆盖导致的数据问题,通过备份可以恢复出历史的数据。海量非结构化数据的备份一直是传统存储以及备份方案的一大痛点,海量非结构化数据备份时间长,速度慢,安全性低,难恢复。而一粒云分布式对象存储内置文件多版本机制,文件的每次删除、覆盖历史的版本都会对应一个版本保存,单个文件覆盖或者被删除,都可以利用多版本机制进行恢复。如果是因为批量操作错误,导致大量文件被误删或者误覆盖,可以利用一粒云对象存储内置的目录级快照恢复的功能进行整体恢复。

所以,一粒云的数据备份方案建议是,以跨数据中心的部署方式,实现互为容灾备份,两套分布式存储组成平等的联邦模式,分布在不同的数据中心,并开启存储的多版本和目录级快照机制。

当主存储的数据发生文件覆盖时,可以直接利用多版本恢复。如果是目录级别出现整个目录的覆盖或者删除,则可以通过目录的快照回滚进行恢复。如果整个主存储文件丢失,则可以通过另一套分布式存储恢复。

该方案带来的优势包括:

  • 备份容灾由存储提供,无需单独的备份软件,节省备份软件的license费用
  • 解决了传统存储及备份方案在大量非结构化数据的备份速度慢,安全性低,资源消耗大的痛点
  • 支持单个文件快速回滚,少量文件恢复效率高
  • 支持桶/目录级别的快照和快照策略,从而实现整个目录/桶的快速恢复

3.2.9. 网络组网方案

组网说明:

热数据池采用4节点组成一个故障域,冷存储池采用3节点组成一个故障域,集群内数据流量分为南北流量,以及东西流量;南北流量来自于上层业务数据的存储,东西流量产生于存储集群内部的数据交换,因此采用2个交换机40GE堆叠的方式增强东西流量网络管道,同时向上提供存储业务,一台千兆交换机属于管理网络。

3.2.10. 配置方案

关键硬件选型
  • 磁盘:考虑到本项目的总容量需求,磁盘上建议选择一下容量 6TB企业级SATA磁盘,从而增加磁盘IO吞吐和性能。并增加SATA SSD磁盘,作为关键元数据的存储,提升小文件性能。
  • 网络:考虑到存储的整体性能,网络建议采用万兆网络组网;
  • 磁盘数量:考虑到系统可靠性和数据安全性,一粒云分布式对象存储建议:

热存储池配置4台2U 12盘位的机架式服务器,根据容量计算:

每台服务器的存储空间需求=240TB / 4节点 = 60TB

每台服务器的磁盘数量 = 60TB / 6TB =10块磁盘。

每台服务器磁盘个数至少规划10块,结合SSD与HDD个数比例的最佳实践,总裸容量为240TB

冷存储池配置3台4U 36盘位的机架式服务器,根据容量计算:

每台服务器的存储空间需求=684TB / 3节点 = 228TB

每台服务器的磁盘数量 = 228TB / 12TB = 19块磁盘 (预留槽位便于以后扩展)

  • 固态盘:根据一粒云分布式存储磁盘容量和文件数量计算,建议热存储池采用SATA 960GB固态盘,每个固态盘最大可支持10块固态盘。考虑到到多个固态盘在固态盘故障时,数据迁移影响更小,为此建议采用两个960GB固态盘;
存储服务器配置
类别配置描述单位数量备注
热存储池PACS生产服务器12个3.5寸硬盘盘位+后置2个2.5寸硬盘盘位机箱型号:处理器:Intel® Xeon®silver 4210 *2内存:32GB /DDR4 *4加速盘:960GB SATA SSD*2数据盘:6TB/SATA/3.5/7.2K*10系统盘:300G SAS*2                                                                     网卡:1*主板集成双口千兆;双口光口万兆带模块 *2   阵列卡:SAS 3008卡*1(同时支持raid/直通)电源:冗余电源;导轨:导轨*1 台4109TB可用空间
采用两副本保护策略
冷存储池服务器4U 36盘位机架式型号:处理器:Intel® Xeon®silver 4214 *2内存:16GB /DDR4 *6加速盘:480GB SATA SSD*3数据盘:12T/SATA/3.5/7.2K*19系统盘:300G SAS*2                                                                     网卡:1*主板集成双口千兆;双口光口万兆带模块 *2   阵列卡:SAS 3008卡*1(同时支持raid/直通)电源:冗余电源导轨:导轨*1 台3415TB可用空间
采用EC (2+1)的保护策略
生产数据中心万兆交换机24口万兆光口交换机(16个10G SFP模块,1个40G堆叠线缆,冗余电源) 台2 
生产数据中心千兆交换机24口千兆电口以太交换机
冗余电源
 台1 

Leave a comment

电子邮件地址不会被公开。 必填项已用*标注