855信息检索答案

发布 2022-08-25 05:08:28 阅读 4661

河南科技大学。

2024年攻读硕士学位研究生入学考试试题答案及评分标准。

科目**:855科目名称:信息检索。

一、名词解释(每题8分,共64分)

1.互联网五要素:一是连接不同国家、地区和部门的卫星、无线电通信技术和光纤网。

络技术;二是在信息基础设施上传递的信息内容;三是能够从信息基础设施上检索信息的计算机终端、电视、**等设备;四是在信息基础设施上提供、管理和生成信息的人、以及提供网络信息服务的人;五是通过使用信息基础设施而受益的网络用户。2.加权检索:

对不同的关键词以数字的方式加权,用户可以选择重点突出并包含必须。

要检索到的词。3.元数据:描述和限定其他数据的数据。其典型类型有表述数据重要性的数据(如著者、

出版年等)、用于数据定位的数据(如中图法的分类号、电视节目的时间和频道等)以及有助于数据检索的数据(如自由文本描述或摘要、一系列适用于检索的主题关键词等)。4.查准率:

即检索结果的相关率,等于检出的相关信息量与检出的信息总量之间的比值,反映了系统选择用户所需信息、筛掉无关信息的能力,即对相关信息的鉴别能力和对无关信息的过滤能力。

5.引擎之引擎:指的是一些评价搜索引擎站点的网上指南型工具,充当着web检索系。

统的指南针,其目的在于告诉用户哪些搜索引擎可以为我所用。

6.智能**:是人工智能研究的新成果,它是一种软件程序,使用**通信协议进行。

信息交换,以实现问题的自动解决。它能在用户没有具体要求的情况下,根据用户需要代替用户进行各种负责的工作,如信息查询、筛选、管理等,并能推测用户意图,自主制定、调整和执行工作计划。

7.虚拟参考咨询:指在数字化的信息环境下,图书馆以网络为传输手段,以数字化信。

息资源为基础,通过电子邮件或实时聊天形式,向用户提供不受时间、空间和地域限制的由图书馆专业人员提供的参考咨询服务。

即联机公共检索目录,是供图书馆读者查询馆藏的联机目录检索系统。它改变。

了过去利用卡片目录手工检索馆藏文献的状况,通过计算机网络对馆藏的信息资源进行检索,是现代图书馆检索信息资源的重要工具。二、简答(每题10分,共40分)

1.什么是都柏林核心元素集?它包含哪些元素?(两个问题各5分)

答:都柏林核心元数据集,是旨在推动电子资源发现的最小的元数据元素集,是目前世界上使用最广泛的元数据格式,具有最强的适用性和最大的弹性。在一个核心集内达成全世界范围内跨学科的共识乃都柏林核心的重要特质。

目前,dc共包括15个元素,这15个元素不含子元素、命名域或其他限定词,根据其所描述内容的类别和范围可分为3组,即资源内容描述类元素(题名、主题、描述、

第1页(共4页)

**、语言、关联、覆盖范围)、知识产权描述类元素(创作者、出版者、其他参与者、权限管理)、外部属性描述类元素(日期、类型、格式、标识)。2、在分类体系展开过程中,必须明确遵守的基本的逻辑要求有哪些?(每个题点2.

5分)答:①应保持从总到分的展开序列,上位类应能涵盖下位类,不能在类目展开**现上下位类颠倒的现象。

应研究多元化分划分标准的类型,以及这一情况下类目之间的关系和规律,逐。

步形成常规使用的模式。

一个大类下包括的类目范围不能过广,不能把不相从属的类目收入其下。④类名应该正确反映类目的内涵和外延,在注意通用性的同时准确反映类名的含。

义。3、简述衡量搜索引擎服务质量的指标两个题点各3分;3题点4分)

答:搜索引擎服务质量的高低主要从以下三个方面来评价:

用户界面。指界面的友好性及帮助信息是否完备。界面友好能使用户很快适应系统的操作方式。完备的帮助信息可帮助用户更好地使用搜索引擎提供的各种服务,最大限度的发挥检索效能。

检索功能。主要指是否支持布尔检索、截词检索、字段检索、加权检索、邻近词检索等多种检索方式,是否支持简单查询和高级查询,是否允许用户以自然语言提问等。

检索结果。包括响应时间、检索结果显示方式的多样性和可选性(如是否允许用户自定义显示检索结果的数目、是否显示检索用时等)以及对检索结果的处理能力(如是否支持相似检索、是否允许用户对检索结果集进行二次检索等)4.简述数据库产品的特性(每个题点2.

5分)答:①高质量性:主要基于它的信息**。

数据库产品加工处理的第一手信息主要是已经发表和出版的期刊、报纸、专著、学位**、科技报告或权威性机构搜索的统计数据、企业内部资料等,在其他地方很难得到。

高附加值。主要指以下三方面:数据库产品集中相关主题和相关领域的所有信息,可大大降低用户查询信息的时间和精力损耗;产品本身是根据用户的实际需要定制;开发人员利用分类标引或检索软件对数据进行整合处理,大大提高了用户在海量信息中查询和检索的效率。

高回报性。数据库产品具有交叉销售的条件,可以联机、光盘或印刷版方式重复销售,也可以许可证的方式销售单机版、局域网版,也可依用户的需求和经济能力按时间、学科、专题分拆销售,因此一个产品可多次**或反复**,尤其在网络环境下,数据库产品的服务边界和范围得到极大的延伸和拓展,其生产发展能力使其具有创造高利润的可能性。

公共物品特性。即非竞争性(指数据库产品被消费了以后,其数量并没有被损耗,可同时被多人使用)和非排他性(指一个人对产品的消费,并不排除其他人利用该产品的可能性)。

三、论述(每题23分,共46分)

1试述英文分类搜索引擎、中文搜索引擎对同位类的排列方法。(每个题点列出,15分,展开阐述8分)

答:分类搜索引擎,亦称主题指南、网络分类目录,是一种按网络资源内容的等级和关。

第2页(共4页)

系建立的网络检索工具,它是门户**中除关键词检索外另一种基本的检索形式。所谓类目的排列,只要指同一类下设置的类目之间的排列,即同位类排列,它是建立分类体系的重要组成部分。在传统文献分类法中,它通常是按照类目之间的关系进行。

分类搜索引擎对同位类的排列组出现多种形式。

英文搜索引擎一般按字顺排列,其优点是,符合英文拼音字母的特点,方便同位类的排列,易于对类表进行调整和增补,同时也有利于用户在同位类查找时按字顺检索。其缺点是不符合分类法按内容关系揭示的基本要求,不能揭示同位类之间的联系,在子类较多的情况下,无法集中相关文献。

中文分类搜索引擎对同位类的排列并不一致,从目前实际使用情况看,主要有三种情况:①采用字顺排列。个别系统部分采用这一方法,但由于汉字排检不如西文便捷,用户没有按字顺检索类目的习惯,因此没有普遍使用。

在排序中参考检索频率的因素。即将检索频率高的类目排在前列。但此法缺乏稳定性,也不能揭示类目的相关性,因此在实际使用中,一般只在前几个类目中使用这一方式,其他类目基本上只是一种任意排列不仅不能给用户带来使用的便利,在多维揭示的情况下,还会加剧类目体系无序和混乱的感觉,因此该排列方式正在逐步被分类体系放弃。

对同位类进行相关排列。按照使用的程度不同,目前中文网络分类法在相关排列上大体有三种情况:其一,系统排列,即所有同位类目按相互关系排;其二,按类型排,即只将同类信息资源加以集中;其三,只集中部分相关类目。

这类方法可在不同程度上揭示类目之间的联系,无论哪种都比任意排列好。相关排列的作用有:可揭示类目之间联系,方便相关类目的查找;有利于结合类目的排列,明确类目的含义;增加类表排列的规律性,能反映划分标准的使用情况,使得类目的展开不至于太混乱;可增加类目排列的一致性和可预见性。

一般说来,相关关系的揭示越系统,效果就越好。

2试述元搜索引擎的工作原理及其在检索使用中的优势及劣势。(工作原理7分;优势、劣势各8分)

答:元搜索引擎构建在多个搜索引起基础之上,它本身并不维护自己的数据库,而是向各个搜索引擎提交检索请求,并将来自不同引擎的查询结果进行重复排除、重新排序等处理后返回给用户。

工作原理:一个真正的元搜索引擎由三部分组成:检索请求机制、检索借口**机制、检索结果显示机制。

请求机制负责实现用户个性化检索设置、包括选择所需调用搜索引擎、检索时间限制、结果数量等。借口**负责将用户的检索请求根据不同搜索引擎的要求翻译成能够满足不同搜索引擎的请求格式。结果显示负责将从各个搜索引擎返回的结果进行去重、合并以及其他输出处理。

通过这些,我们可基本清楚地了解元搜索引擎的工作原理。

优势:元搜索引擎针对同一检索要求查询多个数据库,将结果**之后进行整合,排除相同结果,并按照一定标准排序,这样就增强了查询的广度和深度,强化了不同独立搜索引擎之间结果的差异性,消除重复链接,简化用户检索行为。

某些专业性元搜索引擎往往能提供相对高质量的结果,更能满足用户要求,因为其所选的独立搜索引擎均具有专业性强、结果质量高、但知名度小、往往不被用户所熟知等特点。另外,因多数元搜索引擎不需要维护自己的索引数据库,可将精力集中在查询上,设计开发出更加简明、方便、友好的查询界面,并提供更强的查询功能,这使得元搜索引擎在实。

第3页(共4页)

现上也相对简单、易于开发。

劣势:元搜索引擎在实现检索词语法转换时能力有限,仅在各独立搜索引擎的语法规则无太大差别下能最大限度的发挥优势。对于需要从很多结果中挑选符合一定条件结果的查询来说,就有些力不从心。

其高级检索通常只是注册或定制检索中的一部分,更适用于单用户计算机模式。

由于元搜索引擎不支持指定字段检索等特殊检索功能,因此不能充分发挥各独立搜索引擎的优势,影响了检索质量和效果。

元搜索引擎虽然能够同时对多个搜索引擎进行检索,但这些搜索引擎都是事先定义好的,在开发的时候已经决定了的。用户不能根据自己的检索习惯添加搜索引擎。这就需要用户在网上众多元搜索引擎中寻找自己喜欢或能满足自己需要的元搜索引擎,并且在一定程度上影响了信息的覆盖面。

元搜索引擎在返回结果的数量上也同样有着局限性,仅仅取回所有结果的10%,影响了结果的全面性。

第4页(共4页)

信息检索答案

2011信息检索大赛初赛试题一。每空2分,共100分 姓名 学号 班级 系别 注 1 请直接在该试题上作答。2 请将此答案发往邮箱 lib 1 小明在互联网上认识了一个网友叫小东,小东在超级大卖场做生意,小明想给小东一个惊喜,可是他仅仅知道小东的手机号码是152 请问通过哪个地方超级大卖场,小明最有...

信息检索答案

信息检索 文献检索与利用 课程考核作业。姓名胡强军院系商学院班级 a1012 学号 44 一 简答题 1.我校图书馆cnki数据库 维普科技期刊数据库 超星数字图书馆 万方数据 中国数字图书馆 springerlink 等电子资源,你能从各个库中获得哪些文献?答 cnki数据库 期刊 学位 重要会议...

信息检索答案

信息检索课作业 二 1 浏览图书馆 简述我馆的电子资源按收录文献类型划分都有哪些类型?答 期刊 2 简述我馆订购了 清华同方 cnki 数据库 的哪几个子库?答 五个字库,分别是 中国学术期刊全文数据库 1994 今 包括8200多种重要期刊 中国博士学位 全文数据库 2000 今 包括全国420家...