2019信息检索 2上传

发布 2022-08-25 02:06:28 阅读 2307

第四章 internet 信息检索与利用。

信息检索的三个层次:

1.知道在**能找到信息(了解不同的信息源)

2.能从信息源中检索出合适的信息(课题分析和检索技术)

3.能对检索结果进行评价和分析(选择和综合利用)

第一节 internet的基本知识。

一、起源与发展。

起源:美国国防部20世纪60年代末70年代初的

arpanet

三个发展阶段:

1 arpanet,即美国国防部的计算机网络,是internet的先驱。

2 nsfnet,美国国家科学**会nsf在2024年资助建立的连接五大超级计算机中心的计算机网络。

3 现代internet,向用户提供internet商业的联网服务。

internet在中国。

1987.9中国开始使用internet(北京计算机应用技术研究所第1封电子邮件)

1990.10中国正式注册登记了中国的顶级域名cn

1993.3中国1个内地internet网络节点(中科院高能物理所)

1994.5中关村地区教育科研示范网ncfnet(中科院计算机网络中心),被正式承认有internet的国家。

1995.7中国教育科研计算机网cernet开通(教育界)

1995.12中国科技网cstnet开通(科技界)

1996.1中国公用计算机网chinanet开通(单位个人。商业运行)

1996.9中国金桥信息网chinagbn开通(经济信息。商业运行)

2024年底,国内internet互联网络已基本完成,进入商业化试运行阶段。

中国第一封电子邮件。

二、相关概念。

1.网络信息资源。

借助于计算机网络可以获取和利用的各种信息资源的总和。也就是在互联网上传输的那部分电子信息资源。

地址和域名系统。

ip地址。标识地址—称作网络协议地址;

分配给主机的一个32位地址,由4个字节组成;

分为动态ip地址和静态ip地址两种;

动态ip地址每次连线所取得的地址不同,而静态ip地址是指每次连线均为同样固定的地址,无线上网就是动态ip地址;

静态地址如学校**的202.207.48. 0 - 202.207.63.255

静态地址通常一经设定,变动较少。

域名和网络地址。

域名也由若干部分组成,各部分之间用小数点分开,即:计算机主机名。机构名。

网络名。最高层域名,每个层次为域,各个层次之间用“.”号分隔,从左向右域层逐级上升。例如我校主机的域名是 :

“域名前加上传输协议信息及主机类型信息就构成了**(url)。

如我校www主机的url就是:“http://

域名一般不会变动。

urlurl:uniformresourcelocator的缩写 ,统一资源定位符。也被称为网页地址,是因特网上标准的资源的地址, 是对可以从因特网上得到的资源的位置和访问方法的一种简洁的表示。

是每一信息资源在网上的惟一地址,由资源类型、存放资源的主机域名及资源文件名组成。如:

url的结构。

基本url包含模式(或称协议)、服务器名称(或ip地址)、路径和文件名。

如“协议://授权/路径?查询”。

完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:

密码@子域名。域名。顶级域名:

端口号/目录/文件名。文件后缀?参数=值#标志

url的模式/协议(一)

最常用的模式是超文本传输协议(hypertext transfer protocol,缩写为http),这个协议可以用来访问网络。其他协议如下:

http——超文本传输协议资源。

https——超文本传输的安全版,有加密(支付交易)

ftp——文件传输协议双向传输。

mailto——电子邮件地址。

ldap——轻型目录访问协议搜索。

file——当地电脑或网上分享的文件。

news——usenet新闻组。

gopher——gopher协议,某种索引。

telnet——telnet协议,远程登录。

url的模式/协议(二):

文件所在的服务器的名称或ip地址,后面是到达这个文件的路径和文件本身的名称。服务器的名称或ip地址后面有时还跟一个冒号和一个端口号。

htmlhtml file:超文本文件, html是hyper text markup language的缩写,最大的特点是存在链接功能,可以从网页上的某一点直接指到另一个地方。

超文本标记语言 ,是用于描述网页文档的一种标记语言。 是标准通用标记语言下的一个应用,也是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容(如:

文字如何处理,画面如何安排,**如何显示等)。对于不同的浏览器,对同一标记符可能有不完全相同的解释 ,因而可能会有不同的显示效果。

第二节网络信息资源的类型与检索。

请考虑下面的问题。

你常用的网络资源有什么?

你用过那些检索方法?

自然语言关键词

网络资源检索的基本方法。

电子邮件服务(e-mail)

远程登陆服务(telnet)

文件传输服务(ftp)

新闻组(news group)

电子公告板(bbs)

网上交谈服务。

网络信息浏览(www)

网络资源的类型。

思考: 除了图书馆资源之外,还有哪些可利用的学术资源呢?

怎样找到它们呢?

网络免费学术资源。

网络免费学术资源是指在互联网上可以免费获得的具有学术研究价值的社会科学或自然科学领域的电子资源。

网络学术资源可以是数据库,电子图书,电子期刊,电子布告栏,电子论坛,电子预印本系统,网上书店和**、高校、信息中心、协会或组织的**、以及专家学者个人主页、blogs等。

网络学术资源的主要类型。

搜索引擎。网络数据库。

联机公共目录。

ftp与email

开放存取资源。

学科网络资源导航。

**事实及数值类资源。

第三节搜索引擎。

搜索引擎(search engine)是提供给用户进行关键词、词组或自然语言检索的工具,也就是一种在因特网上查找信息的工具。

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

和谷歌等是搜索引擎的代表。

必须找?**找?

如何找?主要内容。

搜索引擎发展历程。

搜索引擎的鼻祖:archie

yahoo关于雅虎。

雅虎是全球第一家提供因特网导航服务的**,总部在美国加州圣克拉克市,在欧洲、亚太区、拉丁美洲、加拿大及美国均设有办事处。

雅虎是最老的“分类目录”搜索数据库,也是最重要的搜索服务**之一。

第一个现代意义上的搜索引擎:lycos

lycoslycos是搜索引擎中的最早提供信息搜索服务的**之一。

lycos包括搜索数据库、**服务和其他互联网工具,提供**评论、图象及包括***在内的压缩音频文件**链接等等。lycos是目前最大的西班牙语门户网络 。具有多语言搜索功能,共有25种语言供选择 。

常用搜索引擎:

国内:,搜狐,新浪,天网,中搜,爱问,网易,搜狗,万维搜索等。

国外:google,yahoo,msn search, alt**ista,excite,infoseek,lycos,hotbot等。

查询方法:各种网络搜索引擎的使用方法大体相同,根据用户需要,可以输入检索词进行主题查询,也可以从分类目录逐级查询。

搜索引擎。搜索引擎的分类

按检索机制划分

按检索内容划分。

按数据**划分。

1)按检索机制划分。

全文搜索引擎。

目录式搜索引擎。

元搜索引擎

全文搜索引擎。

从互联网上提取的各个**的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

从搜索结果**的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如lycos引擎。

优点:是查询全面、充分,用户能够对各**的每篇文章中的每个词进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等高级功能。

缺点:繁多而杂乱的感觉。

代表性的全文搜索引擎是google、。

目录式搜索引擎。

通过用户浏览层次类型目录来寻找所需信息。

分类一般按主题分类,并辅之以年代、地区等分类。

**多以此方式组织。例如:新浪》分类目录》计算机与互联网》 硬件》****。

优点:使用户清晰方便地查找到某一大类信息,尤其适合那些希望了解某一范围内信息,并不严格限于查询关键字的用户。

缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,可能遗漏某些重要的信息源。

代表性的目录式搜索引擎是yahoo、搜狐、新浪**

元搜索引擎。

同时在其他多个引擎上进行搜索,并将结果返回给用户。

没有自己的数据库,利用一个统一的界面,查询其他独立的搜索引擎。

优点:快捷,信息覆盖面更加广泛。

缺点:高级检索功能不完善,检索结果没有经过处理

著名的元搜索引擎有infospace、dogpile、vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有北斗、等。

元搜索引擎。

就是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。

元搜索引擎工作原理示意图。

第一个元搜索引擎: metacrawler

主要中文元搜索引擎

360综合搜索

马虎聚搜 抓虾网聚搜 :

北斗搜索 内容来自: baidu|google )

佐意综合搜索(chinazss)

比比猫(bbmao):

觅搜(metasoo )

网络信息检索检索策略 2

检索结论。通过阅读检索的相关文献,明确蛋白酶是一类重要的工业用酶,已广泛用于食品 洗涤 皮革 饲料等领域。由于低温蛋白酶有着接近自然环境温度的最适反应温度,对热敏感等特点,使其具有中 高温蛋白酶无法取代的优越性,使其在食品 化妆 废物处理 等领域具有广泛的应用前景。国外如日本 美国等国家,低温蛋白酶...

2019信息检索实验作业 2

序号 实验报告。课程名称 信息检索b 课程 3500009 学院 直属系 交通与汽车工程学院。年级 专业 班 2012级物流管理2班。学生姓名 汤雄。学号 312012 实验总成绩。任课教师 乔强。开课学院 西华大学图书馆。实验中心名称 图书馆电子阅览室。西华大学实验报告。开课学院及实验室 图书馆实...

2019级文献信息检索与利用 作业 2

2013 2014第二学期。姓名 陈佳奇 第一题。陈异宛 第二题。陈国强 第六题。年级 2012级。专业 交通运输 汽车服务工程方向。任课老师 赵家桔 成绩。1 利用书目查询查找本专业的参考书,写出其检索号 索书号 查看书目详细信息 拷贝屏幕粘贴 参考书名称汽车构造。索书号u463 43 1 2 3...