信息检索实验报告

发布 2022-08-25 06:53:28 阅读 9004

姓名:黄唯静。

学号:2011210564

指导老师:李波。

专业:计算机科学与技术。

一、实验目标:

1) 掌握网络爬虫的工作原理以及实现方法。

2) 熟悉网页抓取的过程。

3)熟悉mfc编写的网络爬虫**,并进行调试运行。

2、实验内容:

掌握网络爬虫工作原理的基础上对给定部分**进行修改,实现不同功能并对抓取网页的原理以及性能进行分析。

三、网络爬虫原理:

网络爬虫是一个自动提取网页的程序,它为搜索引擎从internet网上**网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的url开始,获得初始网页上的url,在抓取网页的过程中,不断从当前页面上抽取新的url放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的url队列。

然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页url,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。

四、网络爬虫工作流程:

1) 选取种子url

2) 将种子url放入待抓取的url队列。

3) 从待抓取的url队列中取出带抓取的url,解析dns,并且得到主机的ip,并将url对应的网页**下来,存入已**的网页库。

4) 将上述url放入已经抓取的url队列。

5) 分析已抓取url中的包含的其他url,将其放入待抓取的url队列进行下一轮循环。

流程图:五、实验环境:

visual c++6.0 mfc编程。

六:抓取工具分析:

七、实验设计与结果分析:

八、实验体会。

《信息检索》实验报告

一 opac检索。利用 中图分类法 查找所在专业的分类号,并记录,例如图书馆学专业分类号为g25。再使用书目查询系统查找该分类下的一本图书,写出该书的书名 作者 出版社 出版年 索书号 馆藏复本数4 isbn号 馆藏地北京 写一个即可 f275企业财务管理题名 责任者 财务管理 财政部会计资格评价中...

信息检索实验报告

信息检索课结课研究报告 2012 2013学年第一学期 学院 班级 学号 姓名 检索课题名称 服装设计。一 分析课题。1 课题的性质 图书 期刊。2 课题的学科范围 艺术类学科。3 检索的目的 1 运用各种数据库进行检索,熟练掌握各种数据库的检索方法与步骤。2 对课上所学到的知识得以实践与应用。3 ...

信息检索实验报告

信息检索课结课研究报告 2012 2013学年第一学期 学院 班级 学号 姓名 检索课题名称 光学技术。一 分析课题。1.学科范围 工科。2.课题性质 任何技术的发展都是有发展余地 有发展潜力的,光学技术也应当有这种余地和潜力,需要我们通过实践与研究提出建议。所以这个课题研究的性质是以应用实践为主的...