信息资源检索

发布 2022-08-24 23:04:28 阅读 8085

1.1、因特网上的信息资源:

1.2、网上有什么样的信息:(1)**信息(2)科研信息(3)教育信息(4)文化信息(5)休闲娱乐信息。

1.3、尽管网上信息发展很繁盛,还是有许多重要信息不可能在网上公开,或任用户自由访问、获取。比如:

有关企业、公司的战略、发展规划,商业、**秘密;商业性数据库和大多数有版权印刷资料。

1.4、因特网信息资源的特点:(1)无限性和广泛性(2)多样性(3)廉价性(4)共享性(5)新颖性(6)无序性。

1.5、因特网信息资源的利用价值(优越性):(1)价廉(2)新颖、深入(3)广泛、直接交流(4)非正式、自由。

1.6、因特网上信息资源的种类:(1)从**类型上看,网络信息综合了文本、图形、声音、**等多种格式的信息;(2)根据访问信息的权限不同,可以将网络信息分为开放信息与保密信息两大类;(3)按信息的表现形式可以分为全文型(如各种报纸)、事实型(如企业名录)、数据型(如****)、目录型(如opac)、实时型(如各种论坛)等;(4)最常见的方法还是按照信息资源所采用的网络传输协议的不同来划分。

1.7、web信息资源:(1)超文本传输协议http:

http是浏览器与web服务器之间相互通信的协议。即www客户机和服务器用于在网上传输、响应用户请求的协议。(2) )超文本标记语言html:

html是一种专门编程语言,具体规定和描述了文件显示的格式。也即web描述语言,用于编制通过www显示的超文本文件。(3)通用资源定位程序url:

url又称信息资源的统一定位格式或统一资源定位器。(4)主页(5)链接(6)浏览器。

1.8、telnet的概念:指借助远程登录,在telnet的支持下,在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的相应资源。

简言之,就是通过远程登录后,可以访问、共享的远程系统中的资源。

1.9、目前bbs信息资源也同时在向着采用web和telnet两种方向发展,web类型的bbs可展示包括图像和声音、**在同的多种信息,视觉表现方面更加丰富,用户操作也更加简便;而telnet类型的bbs虽然只能展示文本信息,并且需要用户记忆不少键盘操作,但它也有着速度快捷、功能完善等优点,而受到上网历史较长的老用户青睐。

1.10、ftp是因特网使用的文件传输协议。ftp不公允许从远程计算机上获取、**文件,也可将文件从本地机上传到远程计算机。

1.11、rss信息资源:rss是一种用于共享新闻和其他web内容的数据交换规范,起源于netscape公司2023年开发的技术,是将用户订阅的内容传送给他们的通信协同格式。

rss原来是richsite summary或rdf site summary的缩写,意思是把**内容如标题、链接、部分内文甚至全文转换为“可扩展标示语言”(xml)的格式,以向其他**提供信息。后来演变为“简易供稿”的缩写。

1.12、介绍rss就不能不谈blog(网志,也称博客)。blog指的是个人在**上写日志(web log)供大众阅读,由于blog出版系统的进步,以及普遍应用rss供稿机制的缘故,许多相似主题的blog之间自然串连成为一个个社群,尤其在美国9.

11事件之后,blog成为重要的新闻**,逐渐受到人们重视,人们以blog形式来共享观念与思想变得越来越流行。典型由于rss是xml格式文件,所以它很容易被**程序所使用。blog以rss文档形式为其内容提供一个提要,该rss文档可以通过一个普通的url获得。

1.13、rss阅读器是一种软件或是说一个程序,这种软件可以自由读取rss格式的文档,目前流行的有:rssreader、freedemon、sharreader、看天下rss阅读器等。

这些软件能够把新闻标题、摘要、内容按照用户的要求,“推”到用户的桌面。站点也能利用rss的优点来聚合内容,例如,多数主流的新闻站点包括wired、cnet、yahoo、npr news和国内的新华网都提供rss提要。rss阅读带来的是从“拉(pull)”到“推(push)”的信息获取方式变革。

1.14、因特网信息资源评价的标准:目的、范围、内容。

1.15、评价主围绕该**内容的如下方面(内容的标准):(1)准确性(2)权威性(3)新颖性(4)独特性(5)可靠性(6)链接(7)图形和多**设计(8)信息的展示与设计(9)可操作性(10)费用(11)评论。

2.1、因特网信息资源检索的特点:(1)检索范围大(2)检索效率高(3)检索工具强大(4)信息冗余大。

2.2、基于关键词的检索工具中最代表性的就是搜索引擎,如现在最流行的google。

2.3、基于关键词检索的特点:1、使用关键词检索网络信息资源的优点是:

(1)检索简单易行,利于上手。(2)检索到的信息较新,时效性好(3)可以达到较高的检全率(4)符合检索语言的文献保障原则和用户保障原则。2、基于关键词的检索的缺点:

(1)关键词语言难以反映词间的相关关系(2)分散主题,影响查准率(3)自动标引无法完全解决标引不一致的问题。

2.4、论述最早的网络信息检索工具类型:所有搜索引擎的祖先,是2023年由montreal的mcgill university学生alanemtage、peter deutsch、bill wheelan发明的archie。

archie是第一个自动索引因特网上匿名ftp**文件的程序,但它还不是真正的搜索引擎。

2.6、网络资源目录是由人工发现、抓取、辨别网上信息、依靠编目、标引人员的知识、按照图书分类、学科分类或**分类依据,建立主题树分层目录,将采集、筛选后的信息分门别类地放入各大类或子类下面。

2.7、搜索引擎:robot的搜索引擎它利用一个称为robot的程序自动访问web站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其他站点上。

robot搜集的网页被加入到搜索引擎的数据库中,供用户检索使用。然后在用户录入关键字后进行检索,检索结果中一并附以摘要。

2.8、因为搜索引擎无法索引出这类站点内部的信息,因些站内检索工具成为用户获取这些站点信息资源的惟一手段。

2.9、因特网信息检索工具的工作原理:

一个完整的搜索引擎应具备如下5个部分:搜索器、搜索引擎数据库、索引器、检索引擎和用户接口。

2.10、建立索引:人们已经发明了许多索引类型,对于全文检索来说,最有效的索引结构则是倒排档:

它是一个列表集合,每个词目对应一条记录,在记录中列出了包含此词目的所有文档的标识符。

2.11、自动分类方法又可以分为归类和聚类两种,自动归类是分析网页的内容特征,并与事先拟定的各种类别中特征描述进行比较,然后将对象归入特征最接近的一类,并赋予相应的分类号。实际上,手工分类一般根据历史的经验先定了类,于是一般分类的问题就转化成了归类的问题。

自动聚类方面,vivisimo是目前世界上把自动聚类技术应用得最好的一个元搜索,它已经成功进入了商业运营模式。

2.13、(论述)因特网检索工具的性能评价:(1)收录范围。

(2)检索功能。检索功能直接影响信息检索的检全率、检准率、检索的灵活性、方便性及检索速度,是评价与选择因特网信息检索工具的核心指标。(检索功能评价指标可进一步细分为以下多个指标:

a、检索方式:检索方式单一还是多样。b、检索技术:

所使用的检索技术是否先进、多样。c、检索限定:对所查信息是否有选择与限定的自由。

)(3)检索效率。检全率(recall):对于一项检索,实际检出的真正相关的文件数目(r)与所有应该被除检出的文件数目(r)的比率,r/r即为检全率。

检准率(precision):对于一项检索,如果检出的文件数量n,其中与本次检索真正相关的文件是r,那么检率就是r/n。(4)检索结果的处理和展示(5)用户界面设计。

3.1、google数据库中的文档可分成4种类型:(1)被索引的网页(2)未被索引的网页(3)其他类型文档(4)日常性再索引网页。

3.2、google检索功能:1、基本检索。

(1)布尔检索:google支持不完全的布尔逻辑。(2)词组检索:

在检索词组上加标“”,表示将该检索词组视为一个完整的检索单元,中间不允许插入到别的词(3)禁用词检索(4)截词检索(5)同义词检索:英文单词前加“~”不空格),google将搜索该单词的单复数形式或者该词在意义上相近的词。该操作符只用于英文网而搜索。

(6)google不区分大不写。2、网页特色搜索。(1)目前,google已经能检索微软的office文档,如。

xls、.ppt、.doc、.

rtf、wordperfect文档,adobe的。pdf文档,shockware的。swf文档等。

(2)字段搜索。3、网页目录。

3.3、ask jeeves在1998-2023年间因采用“自然语言搜索”而一举成名。

3.4、搜索提供商:(1)inktomi (2)open directory (3)look smart (4)overture 目前大受欢迎的“pay-for-performance”**登录服务,是所谓“竞价排名”的始作俑者。

3.5、国内搜索引擎:1、,编制者:

2023年底李彦宏和徐勇于美国硅谷创建了。(2)数据库规模和范围:全球最大中文搜索引擎之一,以超2亿的中文网页,全球独有“超链分析”技术,快捷的反应速度,庞大的服务器群,接受来自全球各个国家的中文搜索请求。

(4检索功能:基本检索:a、布尔检索:

运行不完全的布尔逻辑。b、词组检索:对于中文,默认即为词组检索,也就是说输入的关键词在中间没加空格的情况下会被当作一个词组,执行严格的匹配操作,不需要额外再加引号表示词组。

intitle 在html的title标签中查找关键词,knurl 在主机的url中查找关键词,site 限制只搜索某个具体**、**频道,或某域名内的网页。c、检索方法:在检索框中输入字段前缀:

关键词;示例:intitle:搜索引擎。

另外,高级检索界面也提供字段检索功能。2、中国搜索, 天网, ,香港)。

4.1、因特网上的目录型检索工具一般称为网络资源目录,又称分类站点目录、站点导航系统、专题目录或主题指南等。它是由网络开发者将网络资源收集后,以某种分类体系进行组织加工整理,并和检索法集成的一种可供分类浏览和检索的等级结构式目录。

4.2、网络资源数不胜数,任何目录都不可能包罗所有的**,所有网络资源目录都包括下列典型号的一级类目,如商业**、计算机和网络、时事、娱乐和休闲、体育等等,遇到交叉的主题,网络资源目录会有相关的类目下显示不同的路径。

信息资源检索

1.熟悉 中国学术文献网络出版总库 平台的检索功能以及方法。一 进入中国知网首页,然后点击如下图所示中国学术期刊网络出版总库。二 进入如下图的检索页面,在左侧选择工程类别,在右边选择不同的检索途径,然后对所需文献进行检索 2 创建个人数字图书馆并对你的课题建立订 务。1 进入中国知网首页,然后在左侧...

信息资源检索

江苏师范大学 2014 2015 年秋学期。计算机综合 信息资源检索 试卷。一 简答题。1.什么是二次文献?2.按照文献的物质载体和记录形式,文献资料可以分为哪几类?3.信息检索方法分为常规法 引文法 交替法三种,其中常规法又包括哪几种?4 请总结江苏师范大学图书馆订购的中 外文数据库中,全文数据库...

网络信息资源检索方法

作者 丁全。中国市场 2013年第46期。摘要 本文介绍了网络信息资源的概念,并对网络信息资源的检索方法进行了研究。关键词 网络信息资源 检索。中图分类号 g251 文献标识码 a 文章编号 1005 6432 2013 46 0095 02 21世纪以来,随着计算技术和网络技术的迅速发展,inte...