消除重复数据删除的四大误区
导读:重复数据删除
技术的产生是有一定的渊源,那就从头说起,虽然现在存储介质的价格直线下滑,单位存储成本已经很低。但是仍然跟不上企业数据文件增长的速度。随之而来的,能源消耗、数据备份管理等等也都成了老大难问题。而且一些重复的文件也随着增多了。
为此企业现在迫切需要一门技术,能够确保在存储设备中存储的是独一无二的文件。在这种背景下,重复数据删除技术就应运而生啦。重复数据删除技术的目的很简单,就是确保存储的文件不重复,从而减少数据容量。不过在实际工作中,由于种种原因用户对这个技术还存在着一些误解。消除这些误区,对于大家正确使用重复数据删除技术很关键。
误区一:后期处理重复数据删除技术的工作时机。
重复数据删除技术根据其实现的方式可以分为联机重复数据删除技术和后期处理重复数据删除技术。两个技术各有各的特点。不过由于后期处理重复数据删除技术这个名字起得有点其一,所以不少用户对此存在着误解。如一些人会误认为后期处理重复数据删除方式是当所有数据备份过程结束后才进行验证、删除操作的。如果大家这么认为,那么就是大错特错了。
其实后期处理重复数据删除技术通常是在虚拟的磁带介质写入备份数据后就开始进行工作了。也就是说实在等待虚拟磁带写满之后就开始。当然这中间根据需要有一定的延迟。如存储管理员可以根据不同的情况对这个延迟进行设置。可以只延迟短短的几分钟,也可以延迟几个小时。延迟时间具体为多少,主要还是根据企业的实际情况来选择。如有些管理员可能会将这个作业放在服务器比较空闲的时候进行,此时就会把这个延迟设置的比较长一点,如等到下班后进行等等。
这里需要注意的是一般情况下,为了提高数据备份的效率,会对数据备份进行分组管理。此时等待时间是从第一组备份任务传送备份数据流开始算起。当第一盘虚拟的备份磁带写满或者第一组备份数据写入结束后,重复数据删除处理就不存在延迟等待问题。
这主要是因为当系统在进行前一组写入备份数据进行重复数据删除处理时,被分系统可以继续往后续虚拟磁带介质中写入第二组的备份数据。简单的说,就是重复数据处理作业与备份数据的写入作业可以独立运行。从而提高数据处理的效率。
误区二:后期处理重复数据删除方式会降低整体备份的效率。
如果光从技术上看,这个结论是成立的。一方面重复删除方式会占用服务器的资源。另一方面,重复删除方式存在着一定的延迟。但是这是一个比较孤立的观点。因为根据现在的重复数据删除技术,完全可以通过合理的配置来消除这种负面影响。
在实际工作中,如果技术人员发现后期处理重复数据删除技术降低了数据备份的效率,那么可以通过如下几种方式来消除这个不利影响。一是可以将重复数据删除技术分配到多个单独的服务器上来分担服务器的压力。一般情况下在对已写入的备份数据进行重复数据删除时,不同的处理引擎往往会访问同一磁盘阵列。不过现在的技术可以使得他们访问同一磁盘阵列的不同区域。
换句话说,就是可以实现高速的并发处理。这样的话,就不会和持续写入的备份数据流产生任何的冲突,从而不会影响数据备份的效率。二是可以适当调整数据延迟的时间。如可以缩短延迟时间,或者适当延长延迟时间避开数据备份的高峰时间等等。
总之,后期处理重复数据删除技术在一定程度上确实会影响到数据备份的整体效率。但是通过合理的配置,可以将这个负面影响降低到最低的程度。至少与其优势相比,这个负面影响是可以忽略不计的。
误区三:降低备份数据流的读取速度不利于数据备份。
从技术上说,在同等条件下采取重复删除技术,肯定会在一定程度上降低备份数据流的读取速度。但是存储管理员需要明白一点,评价一个技术是否合适,并不能够只看一个指标,而应该从总体上去评价。简单的说,需要评价一下总体的备份时间是否有所缩
另外值得一提的是,如果采取重复数据删除技术的话,一般要求相关设备要有比较高的配置或者性能。因为从数据备份的任务来看,其实包括两个部分,分别为数据的传统备份与重复数据删除作业。虽然说这两个作业可以独立运行,但是其运行所需要的时间是不同的。
而只有党重复数据删除处理结束之后,整个备份作业才算真正完成。故如果后期处理重复数据删除设备的性能比较差时,就会降低系统的重复数据删除比。故笔者在部署这个项目的时候,往往会对重复数据删除设备进行评估与测试,看其性能上是否能够满足要求。
在现实工作中有很多案例可以说明,虽然采用重复数据删除技术后会在一定程度上降低存储数据流的读取速度,但是却可缩短整个备份作业所花的时间,能够满足RTO的需求。有句俗话说的好,只看结果不看过程。评价任何一门技术都是如此,应该从一个整体上进行评价,而不能够某几个个别的指标。否则的话,就可能会引起用户的误判。
误区四:重复数据删除技术与备份数据流写入作业无法同时运行。
如果备份数据流在写入的时候,只对同一个磁盘进行操作,那么这个问题确实存在。但是在现实工作中,这是根本不存在的。因为在实际应用中,重复数据删除技术往往是跟虚拟存储等结合使用的。也就是说,一般会将备份数据流写入到多盘虚拟磁带介质中。而实际写入磁带的数量往往会远远大于用户实际拥有的磁带驱动总数。
上文中就是大家可能对重复数据删除技术的误解,希望大家通过本文的学习之后能够正视重复数据删除技术,让重复数据删除技术很好的为用户服务。