视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战(grand challenge)。"计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。
机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。
作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。现在计算机视觉已成为一门不同于人工智能、图象处理、模式识别等相关领域的成熟学科。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。
为此我们将先介绍人类视觉。
计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。为此我们将先介绍人类视觉。
感觉是人的大脑与周围世界联系的窗口,它的任务是识别周围的物体,并告诉这些物体之间的关系。我们的思维活动是以我们对客观世界与环境的认识为基础的,而感觉则是客观世界与我们对环境的认识之间的桥梁,使我们的思维与周围世界建立某种对应关系。视觉则是人最重要的感觉,它是人的主要感觉**。
人类认识外界信息的80%来自视觉。人有多种感觉,但对人的智力产生影响的主要是视觉和听觉。味觉和嗅觉是丰富多样的,但很少有人去思考它们。
在视觉和听觉中形状、色彩、运动、声音等就很容易被结合成各种明确和高度复杂、多样的空间和时间的组织结构。所以这两种感觉就成了理智活动得以行使和发挥作用的非常合适的媒介和环境。但人听到的声音要想具有意义还需要联系其它的感性材料。
而视觉则不同,它是一种高度清晰的媒介,它提供关于外界世界中各种物体和事件的丰富信息。因此它是思维的一种最基本的工具。
视觉对正常人来说是生而有之,毫不费力的能力。但实际上视觉系统所完成的功能却十分复杂的。有人认为视觉本身就包含了思维的一切基本因素。
设想你要在一个会场中寻找一位朋友,呈现在你眼前的是由参加会议的人、桌、椅、主席台等组成的复杂景物。眼睛得到这些信息以后先要对景物的各部分进行分类,然后从中选出与朋友的外表有关的特征作出判断,那么在人的眼睛视网膜上映照的景物成象是否就能直接提供判断时所需要的有关特征呢?不是的,这里需要大脑的思考。
例如,虽然人在不同距离处观察同一物体时在眼睛中成象的大小是不同的。但人们在观察某人以便估计他的身高时却不会因为他在近处而感到他高些,也不会因他在远处而感到他矮些。这是由于大脑根据被观察物体的距离和与周围物体的比较,并依靠有关的知识对输入的图象信息进行处理,解释的结果。
如果你是在一个灯光暗淡的剧院中寻找朋友,这个问题就变得更为困难。
你刚走进剧院时开始会感到一片漆黑看不清东西,过了几分钟你的眼睛变得习惯于在黑暗中观察。事实上你的视觉系统在此期间中对微光变得更敏感了。但这时许多本来可用的信息丧失了,物体可能难以与背景相区分,许多细节难以分辨。
即使这样人也总能认出朋友。总之,视觉是一个复杂的感知和思维的过程,视觉器官-眼睛接受外界的刺激信息,而大脑对这些信息通过复杂的机理进行处理和解释,使这些刺激具有明确的物理意义。
从以上分析我们还可以看到敏感(sensations)、感觉(perception)、认知(cognition)这三个概念之间的联系和差别。敏感是把外界的各种刺激转换**体神经系统能够接受的生物电信号。它所完成的是信号的转换,并不涉及对信号的理解。
例如,人眼是视觉的敏感器官,它使光信号通过视网膜转换电信号。与摄象机的光电传感器相似,视网膜的感光细胞对光信号在平面上进行采样,产生点阵形式的电信号,所不同的仅是摄象机的空间采样是均匀的,而视网膜的采样是不均匀的,在**凹附近采样分辨率高,而在周围的分辨率低。而感觉的任务是把敏感器官的各种输入转换和处理成为对外部世界的理解。
例如,对视觉来说就是能说出周围世界中有什么东西和这些东西之间的空间关系。这些都是关于周围世界的概念。从输入的点阵形式的信号到形式对客观世界的各种概念其中要经过复杂的信息处理和推理。
而认知是以人们对周围客观世界的概念为基础的。如果没有感觉这个人与外部世界的桥梁或窗口,人的思维活动就换去基本的依据。
人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。一方面是更多未经计算机专业训练的人也需要应用计算机,而另一方面是计算机的功能越来越强,使用方法越来越复杂。这就使人在进行交谈和通讯时的灵活性与目前在使用计算机时所要求的严格和死板之间产生了尖锐的矛盾。
人可通过视觉和听觉,语言与外界交换信息,并且可用不同的方式表示相同的含义,而目前的计算机却要求严格按照各种程序语言来编写程序,只有这样计算机才能运行。为使更多的人能使用复杂的计算机,必须改变过去的那种让人来适应计算机,来死记硬背计算机的使用规则的情况。而是反过来让计算机来适应人的习惯和要求,以人所习惯的方式与人进行信息交换,也就是让计算机具有视觉、听觉和说话等能力。
这时计算机必须具有逻辑推理和决策的能力。具有上述能力的计算机就是智能计算机。
智能计算机不但使计算机更便于为人们所使用,同时如果用这样的计算机来控制各种自动化装置特别是智能机器人,就可以使这些自动化系统和智能机器人具有适应环境,和自主作出决策的能力。这就可以在各种场合取代人的繁重工作,或代替人到各种危险和恶劣环境中完成任务。
计算机视觉就是用各种成象系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。要经过长期的努力才能达到的目标。
因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某种程度的智能完成一定的任务。例如,计算机视觉的一个重要应用领域就是自主车辆的视觉导航,目前还没有条件实现象人那样能识别和理解任何环境,完成自主导航的系统。因此,目前人们努力的研究目标是实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助驾驶系统。
这里要指出的一点是在计算机视觉系统中计算机起代替人脑的作用,但并不意味着计算机必须按人类视觉的方法完成视觉信息的处理。计算机视觉可以而且应该根据计算机系统的特点来进行视觉信息的处理。但是,人类视系统是迄今为止,人们所知道的功能最强大和完善的视觉系统。
如在以下的章节中会看到的那样,对人类视觉处理机制的研究将给计算机视觉的研究提供启发和指导。因此,用计算机信息处理的方法研究人类视觉的机理,建立人类视觉的计算理论,也是一个非常重要和信人感兴趣的研究领域。这方面的研究被称为计算视觉(computational vision)。
计算视觉可被认为是计算机视觉中的一个研究领域。
有不少学科的研究目标与计算机视觉相近或与此有关。这些学科中包括图象处理、模式识别或图象识别、景物分析、图象理解等。由于历史发展或领域本身的特点这些学科互有差别,但又有某种程度的相互重迭。
为了清晰起见,我们把这些与计算机视觉有关的学科研究目标和方法的角度加以归纳。
1. 图象处理。
图象处理技术把输入图象转换成具有所希望特性的另一幅图象。例如,可通过处理使输出图象有较高的信-噪比,或通过增强处理突出图象的细节,以便于操作员的检验。在计算机视觉研究中经常利用图象处理技术进行预处理和特征抽取。
2. 模式识别(图象识别)
模式识别技术根据从图象抽取的统计特性或结构信息,把图象分成予定的类别。例如,文字识别或指纹识别。在计算机视觉中模式识别技术经常用于对图象中的某些部分,例如分割区域的识别和分类。
3. 图象理解(景物分析)
给定一幅图象,图象理解程序不仅描述图象本身,而且描述和解释图象所代表的景物,以便对图象代表的内容作出决定。在人工智能视觉研究的初期经常使用景物分析这个术语,以强调二维图象与三维景物之间的区别。图象理解除了需要复杂的图象处理以外还需要具有关于景物成象的物理规律的知识以及与景物内容有关的知识。
计算机视觉是一门涉及人工智能、神经生物学、心理物理学、计算机科学、图像处理、模式识别等多个领域的交叉学科。它不仅是人眼的延伸,更重要的是具有人脑的一部分功能。近年来,随着计算机技术尤其是多**技术和数字图像处理及分析理论的成熟,以及大规模集成电路的迅速发展,机器视觉技术得到了广泛的应用研究,取得了巨大的经济与社会效益。
人类正在进入信息时代,计算机越来越广泛地被应用到人类生产生活的几乎所有领域。计算机视觉是计算机科学和人工智能科学发展结合的必然产物,它主要是依靠计算机的技术来帮助人类理解视觉的机理,再进一步用计算机实现部分人类视觉的功能。jeee2023年8月的会刊组织了计算机视觉**,在其引言中,定义计算机视觉为用任何办法对2d数据作出的理解iii。
计算机视觉作为一门近三十年来新兴的综合性的学科,它己经吸引了来自各个学科的研究者参加到对它的研究之中,其中包括计算机科学和工程,信号处理,物理学,应用数学和统计学,神经生理学和认知科学等。它要求从事机器视觉的科技工作者从人类视觉信息处理的研究成果中寻找一些问题的解决思路;同时,计算机视觉也为从事生物视觉研究的学者们提供了检验其理论的有效工具。
计算机视觉的应用。
1. 零件识别和定位。
在对视场中物体的外形信息有充分了解、照明条件可得到严格控制的工业环境中,计算机视觉得到成功的应用。如工业自动化生产线上对传送带上的零件位姿定位,引导工业机器人实时准确地去抓取它。视觉系统只由一台摄像机组成,结构简洁,成本低,视场范围大。
2. 智能视觉监控。
动态场视觉监控是计算机视觉领域一个新兴的应用方向。视觉监控区别于传统意义上的监控系统在于其智能性。简单而言,不仅用摄像机代替人眼,而且用计算机代替人、协助人,来完成监视或控制任务,从而减轻人的负担。
快速准确的运动检测,运动检测主要是从监控摄像机所捕捉的序列图像中检测是否有运动物体存在; 实时性、鲁棒性的基于三维模型的车辆与行人的定位、识别和跟踪; 异常现象的检测、报警与目标的行为**,视觉监控系统的最终目的是为了解释监视场景中所发生的事件,根据要求对异常事件进行报誓,并能根据当前目标所处的状态对将要发生的事件进行**;远距离的身份识别,生物特征识别技术与人的运动分析的结合是视觉监控系统的一个重要问题。脸像与步态是具有可感知性与非接触性优点的生物特征,是目前被认为可以用于视觉监控系统中的身份识别的两个主要生物特征。
3. 运动体视觉导航。
运动体通过视觉系统利用立体对可以恢复三维场景信息,并利用场景的三维信息识别目标、识别道路、判断障碍物等,实现道路规划、自主导航,与周围环境自主交互作用等。将立体图像对和运动信息组合起来,可以构成满足特定任务分辨率要求的场景深度图。这种技术在无人汽车、无人飞机、无人战车等自主系统的自主导航得到了很好的应用。
4. 医学图像分析。
目前医学图像已经广泛用于医学诊断,成像方法包括x射线成像、计算机层析(ct)成像、核磁共振成像(mri)、 超声成像等。计算机视觉在医学图像诊断方面有两个方面的应用,一是对图像进行增强、标记、染色等处理来帮助医生诊断疾病,并协助医生对感兴趣的区域进行测量和比较;二是利用专家知识系统对图像进行自动分析和解释,给出自动分析和解释,给出诊断结果。
计算机视觉作业
1 什么是游程长度编码?答 图象分割 把图像划分成区域,使得每一个区域对应一个候选的目标,这种划分称为图象分割 1.图像分割最简形式 把灰度图 gray image 转换成二值图 简单阈值化方法,自动阈值化方法 模态方法 mode 迭代式阈值选择法,自适应阈值化方法,变量阈值化方法,双阈值方法。3 ...
计算机视觉复习
一 名词解释。视知觉 直方图均衡化 拉普拉斯算子 统计模式识别 人工智能 无监督学习 视感觉 直方图规定化 马尔算子 人工神经网络 有监督学习。模糊聚类 参考 1.视知觉主要论述人们从客观世界接收到视觉刺激后如何反应以及反应所采用的方式,视知觉是在神经中枢进行的一组活动,它把视野中一些分散的刺激加以...
计算机视觉理论学习总结
第一部分 深度学习。1 神经网络基础问题。1 backpropagation 后向传播是在求解损失函数l对参数w求导时候用到的方法,目的是通过链式法则对参数进行一层一层的求导。这里重点强调 要将参数进行随机初始化而不是全部置0,否则所有隐层的数值都会与输入相关,这称为对称失效。大致过程是 首先前向传...