神经网络训练小结

发布 2023-05-02 11:42:28 阅读 9087

说明用图例:(上)多层全连接神经网络(下)神经元。

神经网络共有k层,第k层包含个神经元。最后一层(第k层)是输出层。

神经网络输入。

神经网络输出。

f是激活函数。激活函数的输入是激活水平(加权输入) ,输出是神经元的输出。

激活水平。训练样本。

损失函数c,训练步长η,迭代次数s

公式形式表示:

矩阵形式表示。

其中,sigmoid

由于梯度饱和问题,超过三层时误差就无法传到最初的层,因此在深度学习中效果不如relu。

tanh函数值范围是[-1:1]

relu (rectified linear unit)

leaky relu

parameteric relu (prelu)

randomized leaky relu (rrelu)

exponential linear unit (elu)

arctan

softsign

softmax

maxout

quadratic loss

hinge loss

logistic loss

cross entropy loss

高斯分布(正态分布)

其中为可配置得参数。

特例,时为标准正态分布

伯努利分布(0-1分布)

momentum

其中取值为0.9左右。

nesterov accelerated gradient (nag)

其中取值为0.9左右。

adagrad

公式表示形式:

矩阵表示形式:

其中,gt是一个对角矩阵,其对角元素gt,ii是参数θi在t之前每次迭代的梯度值的平方和;ε一般取值1e-8;⊙指矩阵元素对应乘积操作(element-wise product),adadelta

rmsprop

adamshuffling and curriculum learning

以某种特定的顺序将训练样本送入模型;此技巧一般在与其它策略结合使用时会有较好的效果。

batch normalization

当参数集的数学期望为0,方差为1时,会有比较好的训练速度,且参数变化会随着网络的加深而被放大。但随着训练的进行和参数的更新,参数集会逐渐失去这样的分布属性。

在训练过程中,如果能够分批逐渐恢复模型中参数集的分布属性,就能够使用更大的学习步长,训练开始前的参数初始化也不再重要,dropout可以减少甚至不需要。

early stopping

能够监控训练效果,当效果不好时,能够及时停止训练。

gradient noise

给梯度加上正太分布的噪音,,即使初始参数选择不好时模型的鲁棒性也更好,且对训练深度和复杂的网络很有帮助。

神经网络作业

学院 创新专业 信息与通信姓名 李润顺学号 214240114.感知机算法用c语言编写程序 程序见附录 1 n 3,m分别取 1 m 10 收敛时,训练次数k 13,权值矩阵矢量为。阈值0.049363。w0.0825760.0446210.004081 用30个新矢量检验,正确分类率r0.4000...

神经网络作业

作业。训练神经网络。1 训练集 x 2 pi rand 1,300 y sin x 0.2 randn 1,length x plot x,y,测试集 x2 2 pi rand 1,300 y2 sin x2 0.2 randn 1,length x2 plot x2,y2,o 2 网络结构 输入 ...

神经外科实习小结

11.奥扎格雷钠 蛛网膜下腔出血手术后血管痉挛及其并发脑缺血症状的改善。12.尼莫地平 用于预防脑血管痉挛及 急性缺血性脑血管病,作用为扩张脑血管,改善脑供血。使用时应避光以预防药物分解 输入速度宜慢。13.硝普钠 强力血管扩张剂,迅速降血压。作用迅速,但维持时间短暂。14.胞二磷胆碱 改善脑代谢。...