IR理论

科技工作者之家 2020-11-17

IR(institutional Repositories)作为新型的学术交流方式、学术开放存取( Open Access)活动的“绿色通道”以及知识与信息社会的动力引擎日渐成为国内外学术界与高校图书馆、科研院所图书馆关注的焦点。

IR概述IR概念IR概念是解释IR一切问题的基础,Clifford Lynch立足于大学从突出长期保存视角出发,指出,“IR是高校向其机构成员提供由机构及其社区成员创造的数字材料管理与传播的一系列服务,这不仅仅是机构对这些数字材料保管的承诺,还包括长期保存以及组织与获取利用传播。" SPARC资深顾问 Raym Crow认为“IR是收集并保存单个或多个大学、科研机构知识资源的数字化资源集合。 Richard K Johnson则从广义与狭义两个角度对IR进行了内涵界定,指出:“从广义上说,数字IR是由一个学校无论其目的或来源拥有或拉制的任何数字材料的集合;从狭义上说,数字IR是由机构师生员工产生并可以被机构内外终端用户所获取利用的智力成果的数字知识库,并且几乎不存在利用障碍。“笔者认为,IR应该是以一个或多个高校机构教育与学术内容为主,这个内涵外延不应超过这一界限,因为对于高校机构来说,档案馆担负机构行政与管理文件以及档案的管理,如果IR将高校机构所有数字化材料都容纳在内,将会面临资源重复建设的危机。基于此,IR应是对机构内成员智力产品收集、存储、管理并提供开放利用的知识传播与知识服务系统,不应该包括行政管理性文件与档案1。

IR特点与功能国外学者对IR特点都以“开放与互操作性、积累与永久性、学术性以及机构性”为基点进行阐述,目前学者对IR功能探讨最大分歧在于IR对学术交流功能实现的争议。Raym Crow与王雪茅都强调指出IR作为变革传统学术交流体系的主要途径之一,也履行传统学术交流体系功能实现的任务。而David C·Prosser则从同行评议文献存储角度,提出IR实现了传统期刊即传统学术交流体系的三个功能,即注册→利用→存储功能。

尽管学者对IR功能实现存在着不同理解,但我们看到学者对IR实现传统期刊注册→利用→存储功能具有共同的认识,学者争论的焦点在于IR是否可以满足学者要求的认证功能。因为有的IR并没有设置传统的同行评议程序,有的IR即使有一定的质量控制,但也不能等同于传统同行评议,基于此,笔者认为,在有一定质量控制的基础上,IR事实上是实现了传统学术交流体系中一个初步简单的认证功能,可以作为一个参考。同时笔者认为IR目前发展目标应该是以长期存取、推动知识交流与传播为主。

IR服务模式IR服务模式具有多样性,每个机构或每个地区都可以根据本机构或本地区具体情况构建符合个体发展的模式。Alma Swan,Paul Needham,Steve Probets等几位学者在其合作的研究论文以及研究报告中指出,IR服务模式主要分为:“集中式、分散式与采集式(混合式)。所谓集中式模式是指所有元数据与资源都存储在一个集中的知识库中;所谓分散式模式是指所有元数据与资源都保存在源知识库中,元数据是跨库搜索的;所谓采集式模式是指元数据被采集到一个集中可搜索的知识库中,但是仍然保存在分散的原始知识库中,可以从机构与学科知识库以及个人知识库与开放获取期刊中进行数据采集。”这一分类基本上已经包含了IR所有的服务模式,笔者认为IR服务模式的选择应该是以资源优化配置为核心,应以最少投入实现最佳服务1。

IR技术目前国外IR实践主体一直采用两种类型软件系统,一种是开放源码软件,另一种则是商业软件。出于对成本经济的考虑,大多数机构应用的都是开放源码软件,因此不同软件系统开发商以及学者对IR应用的开放源码软件进行了详细的介绍与讨论。目前IR建设中应用比较广泛的开放源码软件系统有:DSpace, EPrints, Fedora, CDSware, Greenstone, ARNO, iTOR, eDoc等。Open SocietyInstitute在IR软件指南中对Archimede, ARNO, CDSware, EPrints, Fedora, iTor, MyCoRe, OPUS设计理念、技术规范、系统管理、内容管理、传播发布、存储管理以及系统维护等方面进行了详细的比较,Richard Jones从内容提交过程、存储与获取、管理与安全等方面对DSpace和ETD-db在电子论文管理功能方面进行了对比分析,确定本机构应用的软件系统。Dion HoeLian Goh等立足于数字图书馆应用软件系统评估的角度,对CDSware, Fedora, EPrints以及Greenstone四个开放源码软件从内容管理、用户界面、用户管理、系统管理以及其他需求等方面进行了综合比较,指出Greenstone在其所确定的标准中具有最佳性。每一种软件系统都有自己的特点,探索不同软件系统的特点与结构,有助于每个机构选择适当的软件建设自己的IR1。

图书馆员角色的重新定位图书馆作为学术资源的主要集散地与传播地,主要任务承担者为图书馆员。事实上,图书馆员才是真正的机构学术资源管理者,是“机构建立知识库最恰当的参与者”,他们在IR建立发展中起着至关重要的作用。Charles W·Bailey Jr提出,图书馆员在IR发展可以“推动机构制定相应发展政策与程序,并对IR实施提供反馈意见;帮助设计IR界面,便于IR的有效应用;推荐以及代理机构成员进行自存储,丰富知识库内容;参与IR内容元数据的创建;促进IR的发展,支持学术出版的变革;培训用户进行内容存储与搜索;为用户在IR利用中解决疑问,释析IR政策与程序等”。Suzie Allard也在综述相关研究文献的基础上,为图书馆员在IR中角色进行了定位,“图书馆员负责了解IR软件系统;监督本地IR项目管理与规划;为集合界定提供指南;制定适合每个集合的简单明确的元数据标准;评价控制提交内容的质量,保证元数据的一致性;培训作者利用IR。”Diana L·H·Chan等人根据HKUSTIR建设的经验,重点突出了图书馆员“在IR系统评估、制定与解释政策、内容收集、与机构成员以及院系进行联络以及参考帮助等方面不可或缺的作用”。由此可见,IR的发展使图书馆员在数字信息保存与管理以及新的学术交流体系中发挥了更大的作用1。

IR建设中的问题IR已经成为当前变革传统学术交流体系,推动知识交流与传播的重要途径,越来越受到机构与学者的关注,但是目前IR建设中还面临着许多问题。

版权许可版权许可是制约机构成员向IR中提交内容的一个重要障碍,因为机构成员向IR提供的自存储的教学与研究成果中有一部分是已经在公开发行期刊上正式发表的,这不可避免地涉及到出版商版权许可问题。在2002-2003年,RoMEO项目对80个学术期刊出版商进行了版权协议调查,结果显示,90%的出版商要求版权转让,6%的出版商要求排他性的版权许可,4%的出版商不要求排他性的版权许可,55%的出版商正式允许作者进行自存储(36%只允许预印本的自存储,2%只允许印后本的存储,17%的出版商既允许预印本存储也允许印后本存储),剩下的45%表示如果有要求也将允许自存储。

该项目还调查了OAI数据与服务提供方,在某种程度上揭示了其对版权问题的忽视或不关注。只有25%的数据提供者表示与作者有许可协议,50%的数据提供者或者仅仅信任存储者,或者仅仅提供常规警告声明。

项目小组根据调查结果,提出了符合学术研究与元数据的权利管理需求的三条途径:一是自己制定;二是可以利用现有的Digital Rights ExpressionLanguage(DREL);三是使用开放获取研究成果权利管理方案。

截止2008年1月8日,SHERPA项目已经对358家出版商进行了自存储政策调查,根据RoMEO项目颜色标识进行了分类,有69%的出版商支持某种形式的自存储。上述调查结果说明,出版商对学者自存储行为并没有完全实行开放式,仍然有一部分出版商强烈反对在IR中自存储。目前,随着IR的发展,一些出版商正在放宽自己的版权政策,允许作者以非盈利目的进行自存储,但是这些出版商政策的改变是附加条件的,例如Nature出版集团鼓励作者在IR中进行自存储,但是前提条件必须是印刷本出版后6个月,并且必须提供对该期刊网站的超链接。由此可见,IR发展必须突破出版商的瓶颈。

内容建设IR建设发展中亟需解决的一个问题是IR内容收集,根据调查结果显示,40%的机构认为内容收集是比较困难的,23%的机构认为非常困难,14%的机构认为不确定,其余的认为相对容易,换句话说,几乎三分之二被调查机构都面临着知识库内容建设问题。这主要是由于研究者对IR认识不够、不同学科领域学术交流传统不同以及IR本身存在问题等诸多原因引致的。Nancy Fried Foster,Susan Gibbons根据Rochester大学DSpaceIR建设的经验,分析了机构成员需求以及对IR的理解,提出IR内容发展两大策略:一是与机构成员进行沟通交流,二是简化成员提交内容的程序,并及时向其展示提交的研究成果。T·B·Rajashekar亦提出了提高作者自存储意识丰富IR内容的两种途径:一是自下而上地让研究者充分了解自存储的意义,二是自上而下制定自存储强制性政策。Morag Mackie指出Glasgow大学从学者或院系网站上采集内容不失为IR建立初始阶段内容收集的一个有效方法。

长期保存和可持续发展IR在学术交流体系以及知识创新中的作用日益凸现,已经有很多机构积极投入到IR发展中,但是我们看到,IR创建并不是一件困难的事情,IR要面临的一个重要问题就是如何能够实现内容长期保存与利用的责任以及知识库可持续发展的目标。Jones与Beagrie指出,“数字保存是指采取一系列必要的措施以保证数字材料永久保存与获取。” Wheatley, P指出“数字信息长期保存与获取是数字知识库发展的重要目标,保存意味着数据存储在知识库中不能被损坏、丢失或者恶意改变,可以在知识库中被检索与抽取,为用户提供服务,可以被用户解释与理解,并且必须可以长期实现上述三个目标。数字知识库长期保存的功能与框架主要包括:创造与提取必要元数据的收集过程以保证实现数据保存;提供信息可以被存储、管理与利用的基本框架;监督技术可靠性与记录信息的‘技术发展历程’,并采取措施保证技术过时继续履行保存责任的过程;提供数字对象检索的服务过程;记录变化元数据的过程与相关框架。”“从理想的角度看,学术性数字知识库将以‘信任式的知识库’角色发展着,并保证其内容可以长期进行访问与利用。”[33]目前,欧洲DRIVER项目也对IR数字资源长期保存进行了实践,已经建成了一个由5个国家知识库提供者组成的常设网络,形成了一套构建本地知识库的指导方针,并实现了对欧洲51个IR数据的再利用。

IR标准化IR标准化问题是IR实现开放获取与资源共享的关键标准。IR标准主要包括两个方面:一方面是元数据标准,另一方面是互操作性标准。由于IR是以机构成员自存储为主导,因此,IR运行中,“自存储所带来的一个潜在问题就是提交者自己创建的元数据,其中可能包含着一些错误的元数据。这些错误的元数据包括拼写错误或者日期格式错误以及其他不同主题描述符的复杂问题,同时元数据格式对采集元数据的OAI服务提供方是至关重要的,错误的元数据将会导致浏览索引十分困难”,因此,IR发展必须保证其存储元数据的标准。IR如果要实践开放获取的理念,可以被Google、Yahoo、Baidu等搜索引擎所爬行,实现资源共享,必须能够做到互操作性,因此IR建设必须遵循国际通用的开放标准,例如OAIS参考模型(the OpenArchival Information System(OAIS)ReferenceModel)、OAI-PMH(the Open Archives MetadataHarvesting Protocol)以及METS(the MetadataEncoding and Transmission Standard)[36-37]。根据统计数据显示,在所调查的123个ARL成员中,大概94%已经实践IR与88%计划应用IR的机构表明支持OAI-PMH标准。由于知识库在互操作性标准方面必须具有一致性,因此,未来对标准化的研究将成为IR理论与实践必须深入的一个重要方面,包括“通用数据模型、通用复杂对象包装方法、通用计划、通用资源链接方法等。”

IR评价与政策支持评价是衡量IR发展的重要方法之一。目前国外只有少数几个学者关注IR评价问题。在IR实践应用中,当前影响其发展的最关键因素是作者自存储行为,因为作者自存储行为直接决定了IR内容的丰富性,所以学者都将研究视角集中在自存储行为评价上,为了正确了解作者对IR的态度以及自存储行为的制约因素,Al ma Swan与Sheridan Brown对作者自存储行为进行了调查,指出在所调查的作者中只有不到一半(49%)的作者曾经自存储论文,包括在自己的个人网站上自存储,但是相比较来说,这个数据比2004年的23%有了一定的提高,某些学科诸如化学、计算机科学与物理学领域的学者自存储意识比较高,结果还发现成果越多的学者,其在IR进行自存储的可能性也越高。Xia Jingfeng等人从“存储者信息、存储数量、全文可获取性、作者态度以及存储成本等角度对IR自存储行为进行了评估”, Jihyun Kim在综述文献的基础上,从社会交换理论(Social Exchange Theory)出发,考虑到成本之间的关系以及内外在利益,个体性格特点以及相关因素,提出了制约作者向知识库提交内容的影响因素模型,并应用于作者的自存储调查。这些研究成果都为学者自存储行为的推进起到了指导作用。这些指标成为评测IR成功的参考性标准。

同时,IR是一个可持续性发展的系统工程,需要相关政策的支持。目前IR建设缺少有关IR实施建设管理的强制性支持政策。许多机构、政府以及研究学会为了丰富IR内容资源,纷纷制定了相关的自存储强制性政策,目前已经有英国南安普顿电子与计算机学院等16所高校或学院制定了自存储强制性政策。此外,一些研究资助机构例如the Wellcome Trust都要求其所资助的研究成果存储在指定的知识库中。为推进IR成功发展,学者需要研究提出相关建议,促使机构尽快制定相关支持政策。

综上,我们不难看出,国外学者对IR理论研究的框架,如图1所示。

研究层次主要以高校和科研院所为主;研究对象分为:IR概念;服务模式;实现技术;图书馆员在IR中的定位;影响因素等。虽然国外学者从多个角度对IR进行了探讨,但仍未形成一个统一的理论框架。目前IR已经跨越了建设阶段的技术困难,IR需要切实解决其面临的一些挑战,诸如内容建设、法律保障、长图1IR理论研究的框架期保存、标准化以及评价等问题,然而目前国外学者形成的IR研究成果主要集中在微观层面,即对某个IR技术软件比较等,推进IR发展的宏观管理运行机制研究成果较少;提出IR发展面临挑战的成果多,具体解决IR实践中问题的研究成果少;总之,研究成果维度广,但仍需全面深入探索1。

国外IR实践进展自从IR成为开放获取绿色通道以及变革传统学术交流体系的途径以来,其发展已经势不可挡。国外许多政府、学会以及科研资助实体与高校都启动了IR建设项目,例如加拿大CARL(the CanadianAssociation of Research Libraries)IR试验项目;荷兰DARE(Digital Academic Repositories)项目;英国FAIR(Focus on Access to InstitutionalResources)项目;美国加利福尼亚理工学院CODA(Collection of Open Digital Archives)项目;荷兰ARNO(the Academic Research in the NetherlandsOnline)项目;美国麻省理工学院(MIT)、英国剑桥大学与Andrew w·Mellon共同支持的旨在建立一个多机构合作的DSpace联盟项目;澳大利亚ARROW(Australian Research Repositories Online to theWorld)项目等。

基于上述众多项目的实践与支持,目前许多著名大学如美国麻省理工学院(Massachusetts Institute of Technology)、哈佛大学(University of Harvard)、康奈尔大学(University of Cornell)等都纷纷推出了IR;截止2007年11月6日,在Directory of Open AccessRepositories中注册的开放获取知识库达1023个,其中IR达827个,占81%。

从实践应用看,国外IR发展趋势已经成为各大高校机构数字学术信息资源保管的主要基地,而目前我国建立的IR可谓凤毛麟角,仅仅只有香港科技大学、香港大学、香港中文大学、香港教育学院、香港城市大学、浙江大学、厦门大学、清华大学、台湾逢甲大学、中科院国家科学图书馆中心等,因此,国外IR建设经验为我国IR建设发展提供了具有可操作性的借鉴与参考1。

本词条内容贡献者为:

任毅如 - 副教授 - 湖南大学