为存储“减负”
- 来源:计算机世界 smarty:if $article.tag?>
- 关键字:存储,减负,数据,恢复 smarty:/if?>
- 发布时间:2010-12-15 09:22
特别适合备份和灾难恢复情形的一个解决方案就是重复数据删除,这项技术可充分利用商业数据中存在大量冗余数据的特点,消除重复数据就能减少所需的存储空间量,用户可以实现10:1至50:1甚至更高的缩减比,这要看使用什么技术和数据的冗余程度。管理员只要借助重复数据删除技术的一点帮助,就能降低成本、降低备份需求,并且万一遇到紧急事件,还能加快数据的恢复速度。
重复数据删除技术有几种不同形式,它们在备份和灾难恢复情形下的方法和作用各具特点,其应用范围最终将扩大到备份层之外的层面,并将运用到企业的所有存储系统,这一点目前已经很少有人怀疑了。
重复数据太多
如今重复数据散布于企业的各个角落。文件保存到数据中心的文件共享区中,其他副本则存放在面向互联网的FTP服务器上,另外一个(或两个)副本存放在用户的个人文件夹中。有时,在文件导出到另一个系统或更新到新软件之前,还会生成文件副本作为一个备份。
重复数据的一个典型例子就是电子邮件群发。例如,人力资源部门的某人想把一份新的PDF文档发给网络上的100个用户,于是他写好了一封电子邮件,按照邮寄列表,附上PDF文档,然后按“发送”。那么,现在邮件服务器在其存储系统中就存放了同一个附件的100份副本。其实只要该附件的一份副本就够了,但由于没有使用重复数据删除系统,所有副本都存放在邮件存储区,占用了宝贵的存储空间。
服务器虚拟化是带来大量重复数据的另一个方面。虚拟化的最终想法是“少花钱、多做事”,在一台物理服务器中运行多个虚拟机,从而最大限度地提高服务器的利用率。这就意味着可以减少硬件开支、降低水电费用,理想情况下还能简化管理。每个虚拟化服务器都包含在一个文件中。比如,VMware使用单一的虚拟机磁盘(VMDK)文件作为虚拟机的虚拟硬盘。可以想见,VMDK文件往往相当庞大,容量至少达到2GB,但通常比这要大得多。
虚拟机的出色功能之一就是,管理员可以停止虚拟机、拷贝VMDK文件,然后把该文件备份起来。只要重新启动机器,就可以继续使用了。那么,我们现在想像一下:所有这些备份副本会造成什么样的情况?那就是许多重复文件存放在文件服务器上。管理员保存着运行中虚拟服务器的“黄金映像”(golden images),以便创建新的虚拟机,更不用说保存备份副本了。虚拟化是能够最充分地利用处理器和内存资源的一种好方法,但要是没有重复数据删除技术,虚拟硬盘实际上会加大对网络存储的需求。
备份系统
面临压力
平时如何备份这些数据?旧的磁带备份系统速度太慢,又缺少所需的容量;新的高端磁带系统拥有所需的性能和容量,但价格相当贵。而不管你的磁带驱动器质量有多好,恢复数据时,磁带往往难逃墨菲定律(Murphy‘s Law,指凡事只要有可能出错,就一定会出错)的魔咒。
虚拟磁带库(VTL)提供了磁带之外的一种现代技术,它使用了配置上模拟标准磁带驱动器的硬盘。但是,额外的硬盘意味着额外的成本和额外的耗电量。虚拟磁带库速度快,并提供了可靠的备份和恢复目的地,如果要备份的数据比较少,一开始面临的硬件和运营成本就会比较少。
数据过剩加大了灾难恢复的难度,使近线存储和离线存储的每个阶段成本更高了。如果近线存储系统中保存一个备份副本,那么,恢复丢失或损坏的文件就很容易。但近线存储系统的数量会相当多,这取决于备份集(backup set)大小以及管理员想要留在手边的备份集数量。离线存储由添加到磁带库或发送到另外某个安全场地的磁带或其他介质副本组成,如果数据集很庞大,并不断增加,这个离线存储介质集就必须扩大,以适应需求。
许多灾难恢复计划包括通过广域网,把备份集发送到另一个地方。除非该企业财力雄厚,能承担非常高速的广域网链路的费用,否则,尽量减小备份集的大小将有利无弊。对于恢复数据来说也是如此。要是备份集确实很大,试图从异地备份来恢复会延长停机时间。
重复数据删除
及优点
重复数据删除是指从存储介质或文件系统中检测到重复数据,并删除重复数据的过程。可以在文件级、比特级或块级进行重复数据的检测,这取决于重复数据删除方法的种类和强度。
重复数据删除系统首次看到某个重复文件或某个部分重复的文件后,会把这部分数据标出来。以后,每个相同部分的数据会从系统中删除,但标以小小的占位符。占位符重新指向首次出现的那部分数据,因此,经过重复数据删除处理的数据在需要时可以重新装配。
重复数据删除方法减少了在系统中表示所有索引文件所需的存储空间量。比如有这样一个文件系统:来自人力资源部门的同一个文件的100个副本存放在每个员工的个人文件夹中,那么可以缩减至原始文件的一个副本,外加99个重新指向原始文件的小小占位符。不难看出,这将如何大大降低对存储的需求,也不难看出,为什么备份经过重复数据删除处理的文件系统要比备份原始文件系统明智得多。
重复数据删除技术的另一个优点是,能够把更多的备份集保存在近线存储系统上。由于备份磁盘空间量减少了,更多的“及时点”备份可以随时保留在磁盘上,从而让文件恢复更快速、更容易。这还可以保留更长的备份历史记录,可供用户恢复的文件版本不再是只有三个,而是有更多的文件版本,从而能够实现粒度非常精细的文件备份,还可以存储许多备份历史记录。
灾难恢复是大大得益于重复数据删除技术的另一个方面。多年来,想缩减异地数据集总的大小,数据压缩是惟一的办法。现在多了重复数据删除技术,可以进一步缩减备份集。既然仅仅是其中的一小部分数据在当天出现变化,为什么每天晚上要传输整个同一数据集呢?重复数据删除技术应用于灾难恢复再合适不过了:不但缩短了传输时间,还因减少总的传输量而提高了广域网的利用效率。
其他存储“减负”技术
数据压缩 这大概是最有名的数据缩减技术了,它是指查找并删除重复字节,非常适用于数据库、电子邮件和文件,但对图片效果则不太好。压缩技术内置在一些存储系统中,也有独立的压缩软件或压缩设备。
基于策略的分层 是指根据数据年限、访问频繁程度或提取速度等制定相应的标准,把数据转移到不同类别的存储介质上。除非策略要求完全删除不需要的数据,否则这项技术不会降低总体存储需求,但由于把部分数据转移到成本较低但速度较慢的介质上了,所以能够削减成本。
自动精简配置 是指对于一项应用,系统会在磁盘上为该应用分配一定量的空间,但实际上只有应用需要时,才真正使用这部分空间。与基于策略的存储一样,这项技术并不缩减总的数据占用空间,但可以推迟购买更多的磁盘,只有绝对必要时才购买。
……
重复数据删除技术有几种不同形式,它们在备份和灾难恢复情形下的方法和作用各具特点,其应用范围最终将扩大到备份层之外的层面,并将运用到企业的所有存储系统,这一点目前已经很少有人怀疑了。
重复数据太多
如今重复数据散布于企业的各个角落。文件保存到数据中心的文件共享区中,其他副本则存放在面向互联网的FTP服务器上,另外一个(或两个)副本存放在用户的个人文件夹中。有时,在文件导出到另一个系统或更新到新软件之前,还会生成文件副本作为一个备份。
重复数据的一个典型例子就是电子邮件群发。例如,人力资源部门的某人想把一份新的PDF文档发给网络上的100个用户,于是他写好了一封电子邮件,按照邮寄列表,附上PDF文档,然后按“发送”。那么,现在邮件服务器在其存储系统中就存放了同一个附件的100份副本。其实只要该附件的一份副本就够了,但由于没有使用重复数据删除系统,所有副本都存放在邮件存储区,占用了宝贵的存储空间。
服务器虚拟化是带来大量重复数据的另一个方面。虚拟化的最终想法是“少花钱、多做事”,在一台物理服务器中运行多个虚拟机,从而最大限度地提高服务器的利用率。这就意味着可以减少硬件开支、降低水电费用,理想情况下还能简化管理。每个虚拟化服务器都包含在一个文件中。比如,VMware使用单一的虚拟机磁盘(VMDK)文件作为虚拟机的虚拟硬盘。可以想见,VMDK文件往往相当庞大,容量至少达到2GB,但通常比这要大得多。
虚拟机的出色功能之一就是,管理员可以停止虚拟机、拷贝VMDK文件,然后把该文件备份起来。只要重新启动机器,就可以继续使用了。那么,我们现在想像一下:所有这些备份副本会造成什么样的情况?那就是许多重复文件存放在文件服务器上。管理员保存着运行中虚拟服务器的“黄金映像”(golden images),以便创建新的虚拟机,更不用说保存备份副本了。虚拟化是能够最充分地利用处理器和内存资源的一种好方法,但要是没有重复数据删除技术,虚拟硬盘实际上会加大对网络存储的需求。
备份系统
面临压力
平时如何备份这些数据?旧的磁带备份系统速度太慢,又缺少所需的容量;新的高端磁带系统拥有所需的性能和容量,但价格相当贵。而不管你的磁带驱动器质量有多好,恢复数据时,磁带往往难逃墨菲定律(Murphy‘s Law,指凡事只要有可能出错,就一定会出错)的魔咒。
虚拟磁带库(VTL)提供了磁带之外的一种现代技术,它使用了配置上模拟标准磁带驱动器的硬盘。但是,额外的硬盘意味着额外的成本和额外的耗电量。虚拟磁带库速度快,并提供了可靠的备份和恢复目的地,如果要备份的数据比较少,一开始面临的硬件和运营成本就会比较少。
数据过剩加大了灾难恢复的难度,使近线存储和离线存储的每个阶段成本更高了。如果近线存储系统中保存一个备份副本,那么,恢复丢失或损坏的文件就很容易。但近线存储系统的数量会相当多,这取决于备份集(backup set)大小以及管理员想要留在手边的备份集数量。离线存储由添加到磁带库或发送到另外某个安全场地的磁带或其他介质副本组成,如果数据集很庞大,并不断增加,这个离线存储介质集就必须扩大,以适应需求。
许多灾难恢复计划包括通过广域网,把备份集发送到另一个地方。除非该企业财力雄厚,能承担非常高速的广域网链路的费用,否则,尽量减小备份集的大小将有利无弊。对于恢复数据来说也是如此。要是备份集确实很大,试图从异地备份来恢复会延长停机时间。
重复数据删除
及优点
重复数据删除是指从存储介质或文件系统中检测到重复数据,并删除重复数据的过程。可以在文件级、比特级或块级进行重复数据的检测,这取决于重复数据删除方法的种类和强度。
重复数据删除系统首次看到某个重复文件或某个部分重复的文件后,会把这部分数据标出来。以后,每个相同部分的数据会从系统中删除,但标以小小的占位符。占位符重新指向首次出现的那部分数据,因此,经过重复数据删除处理的数据在需要时可以重新装配。
重复数据删除方法减少了在系统中表示所有索引文件所需的存储空间量。比如有这样一个文件系统:来自人力资源部门的同一个文件的100个副本存放在每个员工的个人文件夹中,那么可以缩减至原始文件的一个副本,外加99个重新指向原始文件的小小占位符。不难看出,这将如何大大降低对存储的需求,也不难看出,为什么备份经过重复数据删除处理的文件系统要比备份原始文件系统明智得多。
重复数据删除技术的另一个优点是,能够把更多的备份集保存在近线存储系统上。由于备份磁盘空间量减少了,更多的“及时点”备份可以随时保留在磁盘上,从而让文件恢复更快速、更容易。这还可以保留更长的备份历史记录,可供用户恢复的文件版本不再是只有三个,而是有更多的文件版本,从而能够实现粒度非常精细的文件备份,还可以存储许多备份历史记录。
灾难恢复是大大得益于重复数据删除技术的另一个方面。多年来,想缩减异地数据集总的大小,数据压缩是惟一的办法。现在多了重复数据删除技术,可以进一步缩减备份集。既然仅仅是其中的一小部分数据在当天出现变化,为什么每天晚上要传输整个同一数据集呢?重复数据删除技术应用于灾难恢复再合适不过了:不但缩短了传输时间,还因减少总的传输量而提高了广域网的利用效率。
其他存储“减负”技术
数据压缩 这大概是最有名的数据缩减技术了,它是指查找并删除重复字节,非常适用于数据库、电子邮件和文件,但对图片效果则不太好。压缩技术内置在一些存储系统中,也有独立的压缩软件或压缩设备。
基于策略的分层 是指根据数据年限、访问频繁程度或提取速度等制定相应的标准,把数据转移到不同类别的存储介质上。除非策略要求完全删除不需要的数据,否则这项技术不会降低总体存储需求,但由于把部分数据转移到成本较低但速度较慢的介质上了,所以能够削减成本。
自动精简配置 是指对于一项应用,系统会在磁盘上为该应用分配一定量的空间,但实际上只有应用需要时,才真正使用这部分空间。与基于策略的存储一样,这项技术并不缩减总的数据占用空间,但可以推迟购买更多的磁盘,只有绝对必要时才购买。
