信息检索与利用

发布 2022-08-25 04:56:28 阅读 8435

一、 数据库的概念和发展。

根据iso/dis 5172号标准(文献与情报工作术语),数据库(database)的定义为“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”。换言之,数据库就是在计算机存储设备上按照一定方式存储的相互关联的数据集合。由定义不难看出,数据库的产生是以计算机的产生和发展为前提的,计算机的应用从单纯的科学计算到复杂的数据处理为数据库的产生打下了良好的基础。

然而,真正把数据库推向更高层面,提供给更广大的信息需求者的还是近年来迅猛发展的网络,这一点我们从文献数据库的发展阶段来看便可以一目了然。

总体来讲,文献数据库的发展大致经历了以下几个阶段:

1. 计算机联机检索。

计算机联机检索始于20世纪50年代,从60年代中期至70年代末期是联机情报检索。

时期,计算机情报检索系统由晶体管计算机、调制解调器、通信设备和远程数据库组成,检索过程就是通过远程登陆的方式对数据库进行联机检索。与之前相比这种方式相对加快了检索速度,而且由于数据库增长较快,也丰富了检索内容。但是,远程数据库所包含的只有简单的文字信息,没有文献本身,而且费用较高。

2. 光盘数据库检索。

20世纪80年代起,大容量计算机存储器和cd-rom技术的发展,促使计算机情报检索成本。

迅速下降,计算机检索进入到国际联机检索与光盘数据库检索共同发展的新阶段。

3. 网络数据库检索。

20世纪90年代以来,网络的迅猛发展使计算机检索进入到了一个崭新的时期,数据。

库也借助着网络迅速发展,至今无论在数量、质量及使用范围上都创了新高。

二、 数据库的类型。

一)参考数据库(reference database)

1.概念。参考数据库是指包含各种数据、信息或知识的原始**和属性的数据库。

它报道文献信息的存在,揭示文献信息的内容。数据库中的记录格式是通过对数据、信息或知识的再加工和过滤,如编目、索引、摘要和分类等而形成的。

2.类型。按数据库内容划分,参考数据库可分为:

1) 书目数据库,是参考数据库中发展较早的,主要是针对图书进行内容及存储地址的报道与揭示,如图书馆的馆藏机读目录。

2)文摘数据库,如inspec、chemical abstracts、biological abstracts等。

3)索引数据库,如science citation index,、engineering index等。

文摘和索引数据库是针对期刊**、会议**、专利文献、学位**等进行内容和属性的认识与加工,它准确地提供文献的**信息,供读者查阅和检索,但一般不提供原始文献的馆藏信息。本章将详细介绍“剑桥科学文摘数据库”(csa)、“最新期刊目次数据库 ”(ccc)、“生物学信息数据库”(biosis previews)等该类数据库,其他著名的文摘和索引数据库,如“科学引文索引”(science citation index,sci)、“社会科学引文索引”(social science citation index,ssci)、“工程索引”(engineering index,ei或ei)等将在该教材下一章中专门介绍。

3. 结构。

参考数据库的基本组成单位为记录,而记录是由字段组成的。

记录(record):作为一个单位来处理的数据集合,是对某一实体的属性进行描述的结果。在参考数据库中,实体通常指一篇特定文献,而实体的属性即指该文献的题名、著者、**、语种、文献类型、关键词、主题词等特征。

参考数据库中的记录对应于书本式检索刊物中的一个文摘、索引条目或图书目录中的一个著录款目。

字段(field):构成记录的单元,用来描述记录的某一属性。如一般记录中包含下列字段:题目、作者、出处、关键词、主题词、文摘、出版社、专利号、报告号、访问号等。

4. 特点。

1)综合性:数据量大,文献类型齐全,索引系统完备,语种多,出版连续性强。

2)出版物类型:出版历史悠久,大多数数据库具有对应的印刷出版物。

3)数据库结构:结构简单,数据规范性好,记录格式固定。

4)使用:参考数据库的使用一般是开放性的,可以购买、租用,也可联机检索。

5)标引:多数数据库具有规范的主题标引词。

6)文件格式:多采用文本文件格式。

5. 用途。

1)主要用途是搜集文献线索,快速和全面地获取某个主题、学科、领域的文献信息。

2)用于定制个性化的用户服务,如最新目次报道、定题服务、回溯服务等。

3)用于各类统计和评估,如统计期刊、个人或机构的发文量、文章被**或被引用情况,评估期刊影响力等。

二)全文数据库(full-text database)

1. 全文数据库的概念。

全文数据库,即收录有原始文献全文的数据库,最初与数值数据库、指南数据库、术语数据库等事实型数据库(factual database)统称为源数据库(source database),后经两者各自发展,逐渐分离。

20世纪80年代中期以后,全文数据库在数据库中所占比例逐渐上升,因为随着文献出版量及**的飞速**,一般的图书馆很难承受购买和拥有足够多的原始文献,这就给以网络为传媒的电子全文数据库的发展创造了良好的条件。

2.全文数据库的发展表现。

1) 收录的学术性、实用性增强,基本以期刊**、会议**、**出版物、各类。

统计报告、法律条文和案例、商业信息为主。

2) 内容不再限于文字,各类图表、**都可以收录并浏览**。

3) 不以联机检索为主要检索方式,而是发展出了适合全文数据库特点、基于互联网的检索系统。

4) 在概念上脱离了源数据库,成为一种独立的电子资源类型。

3.全文数据库的应用领域划分。

1) 期刊文章全文库,收录有期刊或报纸上文章的原文,如ebscohost系统全文库、lexis-nexis系统全文数据库等。

2) 商业信息、统计报告全文库,收录有各类市场新闻、公司情况、研究报告等。如ebsco公司的“商业资源集成全文库”(business source premier)。

3) 法律法规条文和案例全文库,如lexis-nexis系统的lexis。

4) **报告、新闻消息等全文库,如lexis-nexis系统的nexis。

4.全文数据库的特点。

1) 直接性:用户可以直接检索出原始文献,大大方便和节省了由二次文献查找原始文献的手续和时间。

2) 综合性:全文数据库的收录内容以求“全”为宗旨,尽可能地扩大文献**,增加数量和类型,用户可在同一检索项下获得数量很多、类型不同的文献。

3) 检索方法:全文数据库的检索技术有其自身的优势,随着数据库技术的发展,很多数据库不仅提供一般的检索服务,还可以对作者、文章引文、相似文献等进行检索,另外也可以运用布尔逻辑算符或位置算符进行检索。

4) 检索语言:以自然语言为主,也可根据用户对检索技术的掌握运用高级或专家检索。

5) 标引:全文自动抽词标引,生成倒排文档。

6) 存储空间:存储空间大,每年文献量成几何倍数增加,故一般通过互联网在提供商的数据库中进行直接检索和存取。

7) 文件格式:一般有pdf格式和html格式两种,前者需要有专门的浏览器。两种获取全文的方式各有利弊,用户可以根据自己所需进行选择。

三)事实型数据库

事实型数据库指以直接提供可用的“事实”为目的的数据库,“事实”可以是既有数字又有文字的统计资料,可以是纯文字的知识资料或信息资料,也可以是叙述性文献,包括数值数据库、知识数据库、法律法规数据库、新闻报道数据库、名录数据库、图像数据库、多**数据库、软件数据库等。这类数据库专业性、时效性、应用性比较强,可以为科研工作提供支持,也可以为日常生活提供便利,如《不列颠百科全书》(encyclopedia britannica)、isi化学数据库(isi chemistry)等。

第二节几种常用英文参考数据库。

一、 剑桥科学文摘数据库(csa)

一) 数据库概述。

cambridge scientific abstracts (csa)公司是一家私营信息公司,位于马里兰州的bethesda。该公司在信息领域方面拥有悠久的历史,发展至今已有30多年,主要编辑出版科学技术研究文献的文摘及索引。公司产品有印刷型期刊,也有各种电子版数据库。

1994 年该公司推出其网际网路资料服务系统 internet database service (ids),使用者可通过 internet 检索其 100 余种文摘及索引和全文数据库,达到精确、快速和节省成本之研究效果。2005 年 csa 公司将 ids 系统全面改版为新的检索系统:illumina,除了全新的使用者接口,illumina 更具有多项新的检索功能。

数据库中的记录不仅包括题录,还有原始文献的摘要,使读者能够容易识别文献的可用性。目前覆盖的学科范围包括:(1)航空航天科学(aerospace sciences);(2)农业科学(agricultural sciences);(3)水生生物科学(aquatic sciences);(4)生物学及医学(biological & medical sciences);(5)计算机技术(computer technology);(6)工程 (engineering specialties);(7)环境科学 (earth & environmental sciences);(8)材料科学 (materials sciences);(9)市场研究 (market research);(10)社会科学 (social science)。

其中每个主题下都对应有多个数据库。检索到的结果为文献的题录文摘信息。

数据库特点:订购期内可无限次使用;界面友好,检索方便;可同时检索多个数据库和相关的网络资源;多种方式**检索结果;可保留检索史;能为用户保存检索策略;能提供与检索内容相关的优秀站点。

数据库访问**:

二) 数据库内容。

目前csa公司在清华大学建立镜像(mirror site),提供下列 15 种数据库,以及附带的 2个数据库(带*标记)。

1. aerospace & high technology database (1962— )

数据库内容:2000 年 8 月 csa 获得美国航天学会 (aiaa) 的航天数据库 (aerospace database) 所有权,2001 年 7 月 csa 将其改名为aerospace & high technology database,以反映其涵括更广泛的主题,此数据库为世界航天科技领域中最重要的资讯**,收录 3000 多种期刊、会议**、专利和技术报告,其中包括 nasa 和美国**机构所发布的报告,目前资料量已超过 250 万种,每月更新。

信息检索与利用

信息检索与利用 命题作业 作业名称 探析文献期刊数据库的检索及应用策略。随着网络搜索引擎的普及,信息检索已是群众基础广泛的全民行为。但学术研究的信息需求与检索的目标要求检索者需要具备一定的专业检索知识与能力。其中,各种图书 期刊 电子资源等学术信息的检索是学生应该掌握的重要能力。除谷歌学术 百度学术...

信息检索与利用

探析文献期刊数据库的检索及应用策略。摘要随着互联网技术的发展,传统的印刷方式和人工的检索的使用率逐渐被替代,更多的是数据库的检索方式。本文主要以文献期间数据库作为研究对象,对其检索过程以及在检索方面的策略进行详细的分析,以期供人们进行参考。随着网络搜索引擎的普及,信息检索已是群众基础广泛的全民行为。...

信息检索与利用

姓名。系别班级学号 信息检索课 是20世纪80年代在我国兴起的一门课程,时至今日,信息检索课的教学内容 教学方法都得到了逐步的完善和发展,在培养大学生信息知识的获得与利用文献的技能方面发挥了很大的作用,但是,文献检索课教学中还存在着诸多问题。下面就这些问题谈谈。随着internet在全世界范围内迅猛...