零散有存档权PDF文件的采、编、检管理工具

来源:网络(转载) 作者:毛垣生 王宁 常红 发表于:2012-09-02 17:22  点击:
【关健词】PMID编号;自动链接PDF;自动更名;自动分类;采编检
通过“电子文献网络结构技术”,来解决国内重点关注的“对开放存取数字全文资源即采、即编、即检管理系统”问题。实现了本地允许保存零散PDF文件的再标引,通过云计算技术实现了对文献题录的时时采集、时时编辑、时时检索。通过PubMed中PMID编号自动链接PDF,实现允许保

 Scattered archival rights PDF collected, compiled, retrieved management tools
Mao Yuansheng1, Wang Ning1, Chang Hong1, Tang Naijun1, Zheng Youhong2
1.Tianjin medical university, Tianjin, 300070, China
2.Beijing Weibosai technology limited company, Beijing, 100089, China
Abstract: Applying the "electronic literature network architecture technology", to solve the problem "open access digital full-text resources collection, compiling and retrieving management system", which is the focus problem in domestic. It allowed re-indexing on local preservation of scattered PDF document, and realized collection at times, compiling at times, retrieving at times to literature titles by using cloud computing technology. Automatic connection PDF through PMID serial number in PubMed, that realized the permission preservation scattered PDF electronic resources collection, compiling, retrieving management system.
Key words: PMID serial number; automatic link PDF; automatic renaming; automatic sorting; collection, compiling and retrieving
1 研究背景
对于零散的PDF文件进行保存在国内外都是一个难题,图书馆参考咨询部门对此又有强烈的需求。于是我们通过“电子文献网络结构技术”研究,将零散的PDF文件名通过云计算自动采集题录入库,形成PDF文件名对照表。再将PDF文件名按照PMID编号重新命名,将PMID编号重新命名的PDF文件重新入库,建立主关键字索引文件和搜索引擎,实现PDF文件名自动更名、自动分类、自动编辑、时时检索管理工具。
2 项目介绍
要想建立数字资源即采、即编、即检管理系统,首先要解决好知识产权问题。目前电子资源即采、即编、即检管理系统已经成为世界各国十分关注的问题。用户电子资源存档和知识产权问题成为研究的焦点[1]。近年来,许多国际出版社考虑到用户的核心利益,在保护知识产权前提下,允许图书馆在中心馆和专业馆进行不同方式的电子资源存档,作为特殊情况下馆藏使用[2]。特别值得注意的是,很多数据库厂商都授予国内单位数据存档权,在合同中标明在数据库发生故障无法使用时,或者合同到期订购关系终止时,购买单位可以启用电子存档数据。电子资源存档得到出版社的许可,是电子资源进行长期合法保存的关键[3]。
2.1 目前出版社许可的电子资源存档方式
第一种方式:允许用户购买电子资源停定以后,数据库厂商将电子数据库给用户安装在本地进行存档和长期使用,给用户安装所有购买过的数据并允许用户永久使用。
第二种方式:购买电子资源后,数据库厂商提供给用户一套全文光盘进行存档,允许单台计算机上永久使用。
第三种方式:允许用户购买电子资源后,在中心馆或专业馆由用户自己做电子馆藏。还可以提供给用户存档工具,存档数据在订购的数据库发生自然灾害时供给读者使用。
第四种方式:允许用户保存开放获取(OA)电子资源。免费数据库允许用户作为馆藏永久使用。因此用户不仅具有对所购买的电子资源在IP范围内的访问权,还具有永久使用权。
2.2 研发的基本条件和用途
在尊重知识产权的前提下,首先在国际互联网上收集OA电子期刊全文,以及与全文相对应的题录。根据读者零散保存的PDF文件PMID编号,采集PubMed中的Summary题录入库,将文献PDF文件名按照PMID编号进行更名入库,再按照PMID作为主索引字段进行索引,最后在本地发布,提供本地检索查询使用。
研发使用硬件环境:P2.8 G处理器,G内存,500G硬盘。
软件运行环境:WindowsXP,.Net2.0以上,Office2003中的ACCESS数据库。
通过对开放获取和有存档权的医学电子资源进行手工和自动即采、即编、即检管理系统机制的研究,通过医学网络文献结构和自动挖掘方法,以及云计算、自动更名、自动分类、自动发布等技术,进而实现采、编、检一条龙文献馆藏查询系统。
数据使用:平时师生个人、参考咨询部门学习和科学研究;遇到不可抗拒的自然灾害及政治因素等特殊情况导致数字资源终端不能使用时使用;作为数字资源馆藏缴存和战略容灾储备。3 项目实施
3.1 技术开发思路
由于该系统建设主要采集有存档权的OA医学电子期刊作为图书馆的馆藏,整体设计思路是教师在知道文章出处情况下在本地计算机上查找馆藏,因此以查找为主设计思路。目前采用WindowsXP平台,.NET软件,数据库采用Office Access 2003数据库。随着数据库数据量的增多,可以将数据导入到SQL,ORCL数据库进行编辑、发布使用。因此该系统适合个人以及大、中、小图书馆用来建设医学图书馆电子期刊馆藏使用。
3.2 文献网络结构设计思路
按照PubMed编号对采集的PDF文件名重命名,就可以将不同期刊的电子文档PDF文件命名统一化,用PMID编号作为数据库的唯一主关键字字段。通过云计算和PMID编号在PubMed数据库采集该篇文献的题录信息入库。这样就可以根据题录信息中的刊号、年、卷、期、页、作者、题名、摘要等字段查找文献。由于不同出版社数据库的PDF文件名组织形式各不相同,首先要解决PDF文件名组织形式统一问题,如何将各个出版社和数据库厂商PDF文件名组织形式统一化是解决问题的关键。
为什么不采用DOI国际上对文件名统一编号的主关键字?因为国际文献编码例如DOI:10.1016/j.acra.2009.10.031是以数字串和字符串混合组成,更难记忆,而且DOI编号只对出版社提供,不对用户提供,要获得DOI编号还需要交费。老的文献还没有DOI编号,DOI编号不能覆盖所有的文献,因此没有采取DOI进行编号作为关键字。
如何手工和自动对文件名进行更名?手工对文件更名:将零散下载的文献和文献传递的PDF文件在PubMed中查找到后,每一个PubMed文献都标注了PMID编号,因此很容易按照PMID重新给PDF命名。利用采集工具自动对PDF文件更名,可以利用采集的文献题录库自动给不同编号PDF更名为统一按照PMID编号的PDF文件。
“PubMed中PMID编号自动链接到PDF全文”功能。图书馆大量开放存取文献如果没有人进行整理,全文文件则不能作为图书馆的馆藏。新的读者要索取同一个有存档权的全文文件,只有再发出索取同一个文件的全文传递请求,造成重复传递。而且互联网出口流量增加,需要重复花费文献传递费用,文献传递时间也很长。针对上述问题,在遵守知识产权保护法规的基础上,采用垂直搜索技术,将原始PDF文件的文件名转换PMID编号的PDF文件名,成功地实现了PubMed中PMID编号自动链接到PDF全文功能。(责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(南粤论文中心__代写代发论文_毕业论文带写_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.