2024年专业课作业

发布 2023-12-06 21:34:23 阅读 8608

二、强化学习方法的构成要素(或其基本构成)有哪些?分别解释各组成部分?

强化学习的最大特点是完全不需要关于环境与机器人自身的先验知识信息的学习方法。机器人一边感知当前环境的状态,一边行动。根据状态和行动,环境迁移到新的状态,相应于新的状态的“奖惩”报酬信息返还给机器人。

机器人根据“报酬”信息决定下一个行动。

强化学习对于为实现自律运动的智能体来说是非常重要的。其意义在于很大程度上复杂问题求解的可能性将依赖于这种方法。

强化学习的构成要素:策略、报酬函数、价值函数、环境的模型(model),分相解释如下:

1、策略(policy)

从环境感知到的状态到该状态下应该采取的行动映射。在心理学上,称为:刺激——相应规则(stimulus-response rule)或称“联想”(association)。

为强化学习智能体的核心,一般具有概率性。

2、报酬函数(reward function)

它用来定义强化学习问题的目标。粗略地说,该函数把从环境感知到状态(即:(状态,行动)对)映射成一个数值化的“报酬”值,该报酬表示了从该状态所得到的期望程度。

强化学习智能体的唯一目的就是最终使得到的总的报酬的最大化。对于智能体而言,报酬函数定义了所采取行动的结果是好的还是不好的。在生物学的系统里,常把报酬与“满足”和“痛苦”联系在一起。

这是智能体直接面对问题的本质特征。如此说来,报酬函数一定是智能体本身所不能变更的。但必须能作为更改策略时的根据来使用。

例如:当遵从某一策略采取行动带来较低的报酬时,就需要改变成能够采取其行动的策略。因此,报酬函数一般是概率性的。

3、价值函数。

与每一时刻(或状态)意义上反应行动结果好坏的报酬函数相对应,价值函数则指定了最终什么是好的。粗略地说,所谓状态的“价值”是智能体以该状态为基点过渡到所期望的将来的过程中,所蓄积的报酬的总量。以“价值评价”为核心将是今后数十年强化学习研究中重中之重。

一些强化学习方法中都是以价值函数的评价为核心而构成的,但是价值函数并不是为解决强化学习问题所绝对必须的。例如:为求解强化学习问题,遗传算法、遗传programming以及其他的函数最优化方法被使用了。

4、环境的模型(model)

模型是为了在实际执行行动之前考虑将来可能的状况而决定动作的方法的意义上锁进行的规则而使用的。

三、试述神经网络的基本原理;神经元模型?

神经网络的结构是由基本的处理单元和各单元间相互连接方式决定的。

神经网络系统是由四部分组成:即权值集、节点集、阈值集和输出集组成的。

2019专业课作业

2011年黑龙江省专业技术人员继续教育。知识更新培训 中级职称 专业课作业。7 简述串联混合动力电动汽车的结构特点和主要工作模式。答 串联式混合动力汽车的结构特点 串联式混合动力系统,发动机输出的机械能首先通过发电机转化为电能,转化后的电能一部分用来给蓄电池充电,另一部分经由电动机和传动装置驱动车轮...

2019专业课作业

2011年度专业课作业。姓名 吕开文。报名编号 114112090257 工作单位 黑龙江东力风华暖通工程技术 1 用人单位可以解除劳动合同的情形有哪些?劳动者可以解除劳动合同的情形有哪些?答 除用人单位与劳动者协商一致,用人单位可以与劳动者解除合同外,下列情形,用人单位也可以与劳动者解除合同。1 ...

2019专业课作业

专业课作业。1 名词解释 1.质量 一组固有特性满足要求的程度。2.要求 明示的 通常隐含的或必须履行的需求或期望。3.产品 过程的结果。4.记录 阐明所取得的结果或提供所完成活动的证据的文件。5.顾客 接受产品的组织或个人。2 填空 1.质量管理是一门 新兴的 管理科学。2.产品包括的通用类别有 ...