运维开发网

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

运维开发网 https://www.qedev.com 2021-04-23 09:57 出处:51CTO 作者:mob604756f37073
这段时间,我花了很多时间研究海量小文件的备份,发现各种方案都有很大的局限性(详见海量小文件备份世界难题,居然有人说解决了?我不信不信了)。我以为这是一个世界级的难题,但看了爱数7月6日的AnyShareFamily7揭秘会后,我恍然大悟,原来解决的思路如此简单,但确实很实用,确实帮助AnyShareFamily7的用户解决大问题。AnyShareFamily7是爱数全新的整合、管理、洞察非结构化数

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

这段时间,我花了很多时间研究海量小文件的备份,发现各种方案都有很大的局限性(详见海量小文件备份世界难题,居然有人说解决了?我不信不信了)。

我以为这是一个世界级的难题,但看了爱数7月6日的AnyShare Family 7揭秘会后,我恍然大悟,原来解决的思路如此简单,但确实很实用,确实帮助AnyShare Family 7的用户解决大问题。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

AnyShare Family 7是爱数全新的整合、管理、洞察非结构化数据的生产力平台,其实就是一个智能内容云平台。

AnyShare Family 7包含5大功能模块,分别是整合业务应用、内容应用开发、文档管理、团队协作和数据洞察。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

这次发布的AnyShare Family 7全新版本,相比AnyShare Family 6,有很多功能和性能的提升,比如智能搜索建立索引的时长比AnyShare Family 6缩短了5倍。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

在整体的架构上,AnyShare Family 7也和OpenText一样,采用了现代化的微服务体系架构,更具有弹性和适应性。

但这些都不是我关注的重点,我还是关注那个海量小文件的备份问题,因为我困惑这些问题已经很多年了。

爱数总裁贺鸿富在AnyShare Family 7揭秘会上也讲了,海量非结构化数据带来的是海量小文件的管理问题。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

比如爱数自己,有103TB的非结构化数据,一共2070万个文件,平均文件大小是5.21MB。其实,5MB已经不算小文件了,但这是一个平均数,小于1MB的文件估计最少也有几百万。

AnyShare为了保存这些非结构化数据,底层采用了基于Ceph的对象存储(也可以是第三方的对象存储)。因为对象存储的扁平架构,更加适合保存海量的文件。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

但是,如果要采用常规的方式,对对象存储进行备份和恢复,在文件小于1MB以后,备份和恢复速度都急剧下降。爱数自己的备份软件如此,市场领导者Commvault的备份软件也如此。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

也就是备份100TB的平均大小为1MB的数据,备份和恢复时间都需要半个月左右。这样的速度,肯定是无法满足企业的RPO/RTO要求的。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

但AnyShare Family 7采用全新的备份思路,同样的数据,可以把备份和恢复的速度提高到仅需要5天左右。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

而且关键的是,不仅仅只是速度提升3~4倍,更重要是性能稳定,不会出现抖动。也就是说,备份和恢复的速度,到了10MB以后,和文件大小就没有关系了。

从测试也可以看出,AnyShare Family 7的备份恢复,对小文件无感。10MB以下的文件,备份速度都一致,而且速度稳定在250MB/s以上。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

为什么爱数可以做得这么快?最主要原因就是另辟蹊径,就是没有像其他备份厂商一样,采用标准的S3协议来备份对象存储里的小文件。

大家知道,对象存储基本都有小文件归并技术。也就是说,小文件都是归并为大对象保存在对象存储里面的。小文件归并有两个作用,一是提高文件读写的处理效率,第二是提高存储的空间利用率。

小文件和大对象的对应关系,对象存储一般采用一个数据库来保存这些元数据。当你使用标准的S3接口来访问归并后的小文件的时候,通过保存在数据库里的元数据,可以轻易找到对应的大对象和相应的偏移量,把这个小文件读取出来。

虽然对象存储对小文件进行了归并,但是,备份软件如果通过S3来访问的话,是感觉不到合并的大对象的。因此,备份软件备份和恢复,还是要处理原始的小文件,而不能直接备份归并后的大对象,因为备份软件并不知道小文件和大对象的对应关系。

而爱数是做备份软件起家的,因此,觉得应该采用全新的思路来解决这个问题。即无需对象存储来做小文件归并,而是由AnyShare Family 7在对象存储的前面增加对象存储(OSS)网关,由OSS网关来进行小文件归并的工作。比如,所有小于10MB的文件,都在OSS网关进行合并,合并成128MB以上的大对象,再保存在对象存储里。当然,OSS网关需要有一个数据库来保存这些对应关系。

当AnyBackup Family 7去备份AnyShare Family 7的时候,AnyBackup Family 7能够感知到OSS网关的存在,只备份归并后的大对象,当然还有对应的元数据。当恢复的时候,除了恢复归并后的大对象外,也同时恢复其对应的元数据。这样,对于AnyBackup备份软件来说,根本就感知不到小文件的存在,这就是我们上面看到的一样,10MB以下的小文件,不管文件大小如何,备份恢复性能都是一样的。

妙,实在是妙。爱数充分利用AnyBackup和AnyShare两个研发团队的合作优势,完美解决了AnyShare Family 7的海量小文件备份恢复问题。

大家可能担心,如果小文件需要修改,怎么办?因为要修改一个大对象里面的小文件,还是非常麻烦的。但是,AnyShare作为内容管理平台,这种情况是非常少的。因为内容管理基本都是企业已经完成的文档。当然,如果有修改需要也不要紧,因为内容管理平台本身就具有多版本的管理能力,修改后的文件保存为新的版本,这样就不会破坏已经归档的大对象的稳定性。

为了打消大家的顾虑,这次AnyShare Family 7揭秘会,爱数还宣布了一个高性能备份恢复保障计划。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

也就是说,不管文件的数量和大小,AnyShare Family 7的备份和恢复速度都不小于100MB/s,而且,到明年年底之前,如果有第三方备份软件备份海量小文件的速度比爱数AnyBackup Family 7快的话,那么客户将免费获得AnyShare Family 7的软件永久许可。

看来爱数还是非常自信的,不仅承诺了备份恢复的绝对速度,也承诺了相对的PK。爱数认为从现在开始的一年半时间内,其独特的专用备份性能,应该无人可以超越。

恍然大悟,原来爱数AnyShare Family 7是这样解决海量小文件备份难题的

虽说这是一个AnyShare Family 7专用的备份解决方案,但确实帮助AnyShare Family 7在相比其他内容管理平台来说,有这个巨大的差异化优势。因为,不是所有的内容管理厂商都有自己的备份软件,而且就算有了,可能也没有想到这个思路。

普适的海量小文件的备份世界难题,其实爱数并没有解决,因为这个方案只针对AnyShare Family 7。但是,对于使用AnyShare Family 7的用户来说,这个就足够了。AnyShare不仅仅是一个智能的内容云平台,而且自带备份功能,再也不用担心海量小文件愈来愈多带来的数据保护难题了。

0

精彩评论

暂无评论...
验证码 换一张
取 消