科学信息检索

发布 2022-08-25 00:33:28 阅读 1213

科学信息检索。txt两个人吵架,先说对不起的人,并不是认输了,并不是原谅了。他只是比对方更珍惜这份感情。《信息检索》

第一章信息检索概述。

第一节信息资源的概念与类型。

一、 信息资源的概念。

信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。信息中的载体信息和主体信息是使信息资源的最基本的组成部分。

二、 信息资源的特点。

1. 客观性。信息不是能源,也不是物质,无论是否认识到,信息总是存在着。

2. 寄载性。信息必须借助于一定的符号存储与一定的载体中(包括人脑),才能被表现,没有载体,就没有信息。信息与载体,两者不能割裂开。

3. 传递性。信息可以通过一定的载体在空间、时间上传递,从近到远,从古到今都能传递。

4. 动态性。信息是对事物存在方式及运动方式的反映,随着事物的变化,信息也将变化。这里动态性是指信息的时效性。

5. 相对性。人们认识能力与认识条件不同,信息接受者(信宿)获得信息与信息量的多寡不同,从这个意义上说,信息的价值具有相对性。

6. 增长性。信息资源的使用,不但不会使信息资源减少,再利用中,还会产生更多的信息。

7. 共享性。使用同一种信息资源,均不需要任何的限制条件,信息资源共享的双方或多方均不回损失信息内容,相反还会产生新的信息。

8. 规模性。信息资源作为整体要有一定的量,分散、片面地信息不能较好地反映事物的情况。

三、 信息资源的类型。

按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资源两大类。现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源、文献信息资源、网络信息资源和多**信息资源。

1. 口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。

特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。因此通过这种方式了解到的信息应记录下来,并加以证实。

2. 体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方式传递的信息资源。

特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容量有限。

3. 实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形式表示的信息资源。

特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息。

4.文献信息资源。以文字、图形、符号、声频、**等方式记录在各种载体上的知识和信息,包括图书、连续出版物、小册子以及学位**、专利、标准、回忆录、**出版物等特种文献。

特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后,部分信息尚待证实的情况。

文献的一些主要类型:

1) 图书。国家标准《情报与文献工作词汇?传统文献》(gb13143—91)对图书(book)的解释是:

一般不少以49页并构成一个书目单元的文献。图书是文献中最古老、最重要的类型。按文种来分可分为:

中文图书、日文图书、西文图书等;按作用范围可分为通俗图书、教科书、工具书等;按写作方式可分为专著、编著、翻译、编译等;按出版卷可分为单卷本、多卷本等;按刊**况可分为单性本、丛书、抽印本等;按版次情况可分为初版、重版、修订本等。

2) 连续出版物。具有同一题名、定期或不定期以分册形式出版、有卷期或年月标识、计划无限期连续出版的文献。包括期刊、报纸、年度出版物及其他连续报告、会议路、专著性丛刊等。

连续出版物是与图书并列的最主要的文献类型,其特点是内容新颖、报道及时、出版连续、信息密集、形式一致等。据统计目前世界上连续出版物有130万种,限期连续出版物约50万种。

3) 特种文献。有特定内容、特定用途、特定读者范围、特定出版发行方式的文献,包括学位**、研究报告、专利、标准、产品样本、会议录、档案和**出版物。国内外同行称这类文献为“灰色文献”(grey literature),尽管这类文献并非很成熟,但他们内容新颖专深、实用性强、信息量大、参考性高,利用率大,是极为重要的信息资源。

4) 网络信息资源。以电子形式存贮于成千上万台计算机组成的网络中的信息资源。它包括各类数据、电子文件、学术**、图书、软件、商业活动等各种信息。

因特网(internet)在20世纪70年代起源于美国,截至2023年底,已连接全球200多个国家和地区近5万多个网络、485万台主机、1.2亿个用户,并以每月20万个新用户的速度递增。

中国从2023年开始发展因特网,据《中国因特网发展状况统计报告》报道,截止2023年6月30日,中国上网计算机总数已超过1613万台,上网用户总数达到4580万,cn下注册的达126146 个;www站点数(包括cn,com,net,org下的**)约293213个。国外专家预计,中国将发展成为全球网上第一大用户,届时网上的中文信息也将越来越多。

但在海量的信息中,重复交叉较多,垃圾信息也会很多。

根据不同的标准,可将网络信息资源划分成各种不同的类型:

从利用性质上分,有开发性信息、注册式信息、交流式信息;从存取方式分,有邮件型信息、**型信息、揭示版型信息、广播型信息、图书馆型信息、数目型信息;从内容上分,有商务信息、科技信息、社科信息、教育信息、娱乐信息等。

5) 多**信息资源。

将电信、电视、计算机三网相互融合,集图、文、声于一体的信息资源。包括网上广播电视、专题论坛、网上广告等。

多**信息打破了图书、报刊、广播、电视单项**的界限,形成交互式**信息,可通过主题、文本、模版匹配,**检索等方式对其进行检索。

第二节信息检索的概念与类型。

信息检索(information retrieval ) 又成为情报检索,萌芽于图书馆的参考咨询工作,20世纪50年代才固定成专用术语。

一、 信息检索的概念。

代表性的定义有以下几种:

1. 信息检索过程说。《图书馆学百科全书》认为:信息检索是“知识的有序化识别和查找的过程,??广义的情报检索包括情报的检索与存储,而狭义的情报检索仅指后者”。

2. 全息检索说。上海交通大学信息检索专家王永成教授认为:

全息检索就是“可以从任意角度从存储的多种形式的信息中高速准确地查找,并可以任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切相关信息的电脑活动”。

3. 概念信息检索说。chank等专家认为,概念信息检索是基于自然语言处理中队只是在语义层次上的析取,并由此形成知识库,再根据对用户提问的理解来检索其中的相关信息。

它用概念而不是关键词来组织信息。

4. 大量相关信息检索说。叶继元等教授认为,信息检索是从大量相关信息中利用人—机系统等各种方法加以有序识别与组织以便及时找出用户所需部分信息的过程。

人—机系统”,“各种方法”是指利用关键词、主题词、概念分析方法等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以用户为,本全方位、多角度提供检索入口和检索结果。

信息检索包括存储与检索两个部分。存储是对有关信息进行选择、并对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。

这里要理解概念分析。概念分析即将概念转化成系统语言,是存储与检索共有的过程,因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体。

二、 信息检索的类型。

1.按检索内容分,有数据信息检索、事实信息检索和文献信息检索。

1)数据信息检索(data information retrieval)是将经过选择、整理、鉴定的数值数据存入数据库中,根据需要查处可回答某一问题的数据的检索。这些数据包括物理性能常数、统计数据国民生产总值、外汇收支等。这类检索不仅查处数据,还可以提供一定的推导、运算的能力。

2)事实信息检索(fact information retrieval)是将存储于数据库中的关于某一事件发生的时间、地点、经过等情况查找出来的检索。它既包含数值数据库的检索、运算、推导,也包括事实、概念等的检索、比较、逻辑判断。

3)文献信息检索(document information retrieval)是将存储于数据库中的关于某一主题文献的线索查找出来的检索。它通常通过目录、索引、文摘等二次文献,以原始文献的出处为检索目的,可以向用户提供原文献的信息。一些观点也认为可称为“数目检索”。

2.按组织方式分,可有全文检索、超文本检索和超**检索。

1)全文检索(full text retrieval)是将存储在数据库中的整本书、整篇文章中的任意内容信息查找出来的检索。可以根据需要获得全文中的有关章、节、断、句、词等的信息,也可进行各种统计和分析。

2)超文本检索(hyper text retrieval )是对每个节点中所存的信息以及信息链构成的网络中信息的检索。强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检索。

3)超**检索(hyper media retrieval)是对存储的文本、图像、声音等多种**信息的检索。它是多维存储结构,有向的链接,与超文本检索一样,可提供浏览式查询和跨库检索。

3.按检索手段分,有手工检索和机器检索。

1)手工检索(hand retrieval)是人直接用手、眼、脑组织、查找印刷型文献的检索。具有直观、灵活、无需各种设备和上机费用的优点。

2)机器检索(machine retrieval)又称计算机检索。是通过机器对已数字化的信息,按照设计好的程序进行查找和输出的过程。按机器检索的处理方式分又有脱机检索和联机检索;按存储方式分,有光盘检索和网络检索。

机检可大大提高检索效率,扩宽检索领域。

三、信息检索的研究内容、研究方法和作用。

1.检索理论研究。

检索理论是检索活动中总结出来的系统化的知识,研究内容包括信息与信息资源定义、信息检索的定义、类型、特点、作用、研究对象、方法、内容、理论基础、术语规范、原理与原则、相关学科等的研究。当前要多做信息检索知识体系化、整合化的研究。

2.检索语言研究。

原指从自然语言中精选出来,并以简练形式表示文献、信息的受控语言的集合。现指受控语言和自然语言(未规范的书面语言)。研究内容包括关键词、主题词、词表编制、分类表编制、概念分析、规范档、**标识等。

3)数据库研究。

科学信息检索

第一章信息检索概述。第一节信息资源的概念与类型。一 信息资源的概念。信息资源是人类存储与载体 包括人脑 上的已知或未知的可利用的信息。信息中的载体信息和主体信息是使信息资源的最基本的组成部分。二 信息资源的特点。1 客观性。信息不是能源,也不是物质,无论是否认识到,信息总是存在着。2 寄载性。信息必...

科学信息检索与技术

信息工具 适用于 现代信息查询与利用 和 科技信息检索与技术 1 检索课题 1.1 课题名称 1.2 检索工具名称及类型 电子图书数据库 电子期刊数据库 学位 数据库 搜索引擎 2 分析课题需求。2.1 文献类型 2.2 检索词 2 3个。2.3 检索项 1 2个。2.4 检索表达式 1 2个 例如...

信息检索检索报告

本科课程考查专用封面。作业题目信息检索课程报告 所修课程名称 信息检索。修课程时间 2014 年10 月至 2015 年 1 月。完成作业日期 课程结束后一周内 评阅成绩 评阅教师签名 2015年1月日。说明 1 本报告总计50分,包括检索报告和学习报告两个部分。2 打印请用宋体五号字 默认字体 排...