【摘 要】本文主要探讨了高校数字图书馆建设的现状,根据目前的存储技术,提出了适合高校数字图书馆发展的网络存储架构。
【关键词】高校数字图书馆 网络存储 架构
在网络时代,信息资源呈几何级数增长,导致通过网络进行传输的信息量不断膨胀,大量的信息需要进行数字化存储。而数字图书馆是建立在大量可读取和可利用的数字化信息资源之上的,它所要存储和处理的数据量也呈几何级的速度增长,涉及的数据类型不仅包括文本、图像,还有语音、视频等多媒体信息,如何把这些海量数据系统组织起来进行存储和管理是数字图书馆发展的基础和保证。所以,架构合理的数据存储平台,实现数据的集中存储、分析和共享是高校数字图书馆面临的首要问题。所以,高校数字图书馆迫切需要一套切实可行的、安全可靠的、经济灵活的数据存储解决方案。
一、我国高校数字图书馆的建设现状
我国在进行数据库和文献信息资源数字化建设中,开展了一系列数字图书馆建设计划。例如,中国高等教育文献保障体系(简称calis),是经国务院批准的我国高等教育“211工程”总体建设规划中两个公共服务体系之一,是我国高等教育发展的基础设施之一,也是一项十分重要的公共事业。整个保障体系采取了全国中心、地区中心和成员馆三层结构。目前提供的功能包括公共检索、馆际互借、文献传递、电子资源导航、联机编目等。
数字图书馆是一个浩瀚的海量多媒体数据库,仅仅以文献年增长量为例,全世界每年有750万种以上的新文献出现,如果每份文献有200页,每页包括1600字节,则每年文献信息的增长量就高达2.4t的数据量,况且文献信息只是数字图书馆的一部分信息。locAlhosT如果考虑到其他类型信息,如cd.磁带、录像带、微缩胶卷等各种各样的多媒体信息,数字图书馆的信息量将令人望而生畏。因此海量数据的存储是数字图书馆的关键问题之一。
针对海量信息的存储解决方案,概括起来,一个好的存储解决方案,应满足现实可用性、可管理性、安全性、系统高效性、可扩展性、统一性原则等条件。
二、目前的主要存储技术
随着图书馆信息量的剧增,存储规模也越来越大,信息度量单位也不断改变,从kb到mb,进而到tb,以至pb。存储这些海量信息不但要求存储设备有很大的储存容量,而且还需要大规模数据库存储和处理这些数据,这就涉及到硬件随时读取的速度、数据集中与分布、存储管理方法等问题。
1.das(direct attached storage)
das是以文件服务器为中心,将存储设备通过scsi接口或光纤通道直接连接到应用服务器上,用户通过文件服务器间接地迂回访问存储设备上数据。das没有独立的存储操作系统,不能提供跨平台的文件共享功能,数据存储模式是分散的,各系统下的文件需要分别存储;没有自身的管理软件,数据管理需要第三方软件支持。
这种模式的好处是前期投入低,缺点是后续成本大,总拥有成本较高;随着应用服务器的增加,网络系统效率会急剧下降。
2. nas(net work attached storage)
nas是一种独立直接存储的联网方案,它是基于lan的存储方式,按照tcp/ip协议进行通信,以文件的i/o方式进行数据信息传输,与das相比,nas已经完全可以实现异构平台之间的数据级共享,并支持windows nt、unix、linux等操作系统,特别适合于ftp等文件共享服务的应用。集中式的数据存储模式,降低了数据信息的管理成本。
nas在存储方面表现出来的优点已很明显,但nas也存在一些明显的缺点,在数据量不是很大的情况下,nas还是非常有用的,当数据量增加时,nas开始出现一系列安全性问题。
3.san(storage area network)
san是在原来的局域网外,另外构建一个专门用于存储的网络结构,这个存储网络可以看成是一个高速的子网,这个子网中的设备可以从主网卸载流量。san结构以数据存储为中心,采用灵活的网络拓扑结构,通过具有高传输速率的光纤通道连接,以传统scsi协议传输数据。
与前两种存储方式相比,san有许多优点。可以自由扩展;传输速率较高;有利于大规模传输;节省管理成本等。但是san也有许多不足,首先,建设费用较大。其次,san互操作性较差。其他应用是难于访问这个区域的,难于应用于大量存在的文件共享服务。最后,san的建设难度大。需要具有较好专业知识的人员管理。
三、结合san和nas技术的数字图书馆存储网络架构
在信息纷繁复杂的internet网络中,用户需要花很长时间去搜索自己渴望的信息资源,在得到信息的同时还需要用户去分辨和提炼对自己有用的资源,这并不是一件容易的事情。数字图书馆的建设改变了这一切,它是一个海量的数字资源库,几乎每一个用户都能在数字图书馆中找到自己满意的答案。但是超大用户量的数据访问和海量的数据存储需要一个快速数据访问和大数据量存储的存储方案作为后盾,利用现有的存储设备和存储方式显然不能满足这个要求。因此利用新的存储技术来设计数字图书馆的存储网络成为解决存储问题的关键。
1.数字图书馆的san-nas系统
san-nas模型的提出很好的解决了数字图书馆海量数据存储难题,弥补了单纯使用san或nas技术构建数字图书馆存储网络所带来的存储管理,数据备份等问题,将san技术和nas技术融合在一起,发挥了san技术中处理大数据块操作的优势,而nas引擎弥补了san系统缺乏对文件级数据的访问操作,总的来说,通过nas-san的汇聚,可以使用户在使用文件共享功能时不知不觉中享受到了san的高性能和大容量。至于客户端方面,由于nas系统有自己的文件系统,所有文件级的信息可以通过nas引擎直
[1] [2] 下一页