作者:范时枭张金辉张其林。
**:《计算机辅助工程》2023年第05期。
摘要: 结合机器学习方法对结构健康监测系统采集的原始数据进行初步的自动化分析,以达到降低进一步分析的计算量、提高分析子系统精度的目的。以上海中心和兰州西站监测系统为背景,利用机器学习方法研究数据异常识别问题,优化数据分析预警子系统。
使用单变量特征选择提取利于识别的特征向量, 对比分析在结构健康监测中各类支持向量机(support vector machine,svm)的优劣,组合利用不同svm的优势减少异常数据的漏报和误报。该方法已被应用于上海中心和兰州西站的结构健康监测系统中。
关键词: 结构健康监测; 数据识别; 单变量特征选择; 支持向量机; 主成分分析; 机器学习; 数据降维。
中图分类号: tu312.3 文献标志码: b
0 引言。自20世纪70年代以来,结构健康监测逐步进入土木工程领域,使结构维护、预警、状态评估具有较可靠的指导。随着计算机和网络技术的飞速发展,监测系统也应运而生。
[1-2]在结构损伤识别和预警问题上,国内外学者先后将神经网络算法[3-4]、模糊理论[5]、小波分析[6]和遗传算法[7]等运用于分析预警子系统中。但是,大型建筑结构健康监测产生的数据量巨大,以上海中心为例,应布置400多个测量点位,其中频率100 hz的动态点位超过150个,每天产生数十gb数据量,若直接将数据应用于结构模态识别计算分析,进行损伤识别,其计算量十分惊人。现阶段,普遍采用方法的是利用定值的信号阈值进行数据筛选,结合人工定时选取某段时间数据进行计算分析,因此效率较低且易漏报和误报异常数据。
进行初步的数据异常识别有助于缩小分析范围、降低计算负荷。曾有学者针对桥梁结构提出数据异常诊断方法,但经过上海中心监测数据测试发现此方法对于建筑结构效果不佳。本文旨在对监测数据进行第一层的异常识别,提供对内的预警,降低分析子系统的计算压力。
1 特征向量降维方法。
监测数据的统计特征众多,采用一定的数据降维方法处理后可得到正常数据与异常数据之间差别更明显的统计特征,即对异常识别来说更有效的特征值,便于数据分类。同时,特征向量维度降低,进一步分析时计算量将显著降低。本文对比主成分分析(principal component analysis,pca)法[8]与单变量特征选择(univariate feature selection,ufs)法[9]2种方法,结合实际数据分析其在结构健康监测中进行特征向量降维的优劣。
1.1 主成分分析法。
pca法将数据矩阵。
wthx]x[wtbx]的行视为来自p个随机变量x的观测值,降低。
wthx]x[wtbx]的维度主要通过线性组合实现,将n维特征向量映射到k维上(k
1.2 单变量特征选择法。
ufs法能够对每一个特征进行测试,衡量该特征与响应变量之间的关系,根据得分去掉可分性不好的特征。分类问题可采用方差分析对特征进行打分。
方差分析用于2个及2个以上样本均数差别的显著性检验,其将总的试验数据的波动分为反映因素水平改变引起的波动和反映随机因素引起的波动,然后进行比较判断。
2 数据识别方法。
利用统计学习的分类方法,依据监测数据特征值向量对每段监测数据进行分类,可达到识别异常数据的目的。[10]
2.1 支持向量机原理。
支持向量机(support vector machine,svm)[11]是一种二分类模型,其基本模型是定义在特征空间上的间隔最大线性分类器。svm的目标便是寻找所有可将2类数据分离的超平面中基于支持向量几何间隔最大的一个,为约束最优化的问题。实际数据常常不会是完全线性可分的,若去掉少量点后能变为线性可分的数据集即线性近似可分,可使用松弛变量,并引入惩罚参数c>0,使原问题的间隔最大化变为软间隔最大化。
对于完全线性不可分数据,引入核技巧可使其成为实质上的非线性分类器。
2.2 非线性分类svm
动态监测数据的数据种类繁多,且在建筑施工或使用过程中获得的监测数据受各种外部因素的干扰,常产生非线性分类问题,即不存在一个超平面可将2类数据分离或近似分离,需使用非线性分类器进行分类。对于此类问题,核心的求解思路为利用非线性变换使原空间的2类点映射到新空间,使问题在新空间中变为线性分类问题,常采用核技巧来实现。
2.3 一类svm
一类svm[12]与前文中所述普通二分类svm的不同之处在于其只有一类数据,2类数据间的几何间隔便不存在了。一类svm的基本思路是将数据映射到高维特征空间,使其具有更好的聚集性,在特征空间中找到一个使数据与坐标原点几何间隔最大的超平面。
3 工程应用。
3.1 数据采集与预处理。
2套系统均采用b/s结构建设,使。
用结合mongodb数据库编写,以达到实时、快速存取大量数据,便捷查看、调用数据的目的。为达到分析处理每日海量的监测数据和实时分析数据、查看结果的目的,本文数据分析程序主体使用编写。2023年13号台风苏迪罗过境前后上海中心风速时程图见图1, 2023年4月15日甘肃省**前后兰州西站加速度时程图见图2.
观察图1中的风速时程图,虽然台风过境时风速数据整体数值比台风过境后更大,但由于风速数据波动较大,所以2类数据有大量交叉点。此种情况下简单利用阈值进行数据识别则效果比较差。为定量展示本文数据识别方法在真实环境中复杂情况下的识别效果,将风速数据以台风过境时的图1a和。
1b的所有数据作为异常数据,以过境后图1c和1d的所有数据作为正常数据,测试本文的识别方法对于2类数据的识别准确率。
同样,加速度数据以**作用时正段数据作为异常类数据,即图2中500~640 s及2 480~2 540 s这2段数据,剩余所有数据作为正常数据。
对采集的数据首先进行小波阈值降噪,阈值计算采用斯坦无偏风险计算方法。信号采集频率为100 hz,以10 s信号为一个样本,每小时360个样本,每个样本包含1 000个信号数据,2种分类器的学习集和测试集样本量。
每个样本提取均值、最大值、最小值、峰值、整流均值、标准差、偏度、峰度、均方根、波形指标、峰值指标、脉冲指标、频率中心、均方根频率和频率标准差共15个特征值组成特征向量。特别指出,均值主要用于描述信号的稳定分量,均方根值主要用于描述振动信号的能量,峰值指标、脉冲指标主要用于检测信号中的冲击。[13]
3.2 2种降维方法对比分析。
3.2.1 pca法降维。
上海中心风速数据前3个主成分组成的特征向量空间分布见图3a,3个主成分累计贡献率为88%;兰州西站加速度数据前3个主成分组成的特征向量空间分布见图3b,3个主成分累计贡献率为81%;图中灰色点为异常数据,黑色点为正常数据。
从图3来看,对于这2种监测数据,使用pca
法处理数据后未能保持较好的可分性。初步分析是由于pca法的核心是寻找特征空间中最大方差的线性组合以达到降低向量维度的目的,这是基于最大方差理论认为此方向保留的信息最多,然而当实际不同类别的区别信息保留于最小方差方向时,其并未将数据分类考虑在内。
3.2.2 ufs法降维。
上海中心风速数据得分前三名的特征值组成特征向量的空间分布见图4a;兰州西站加速度数据得分前三名的特征值组成特征向量的空间分布见图4b;图中灰色点为异常数据,黑色点为正常数据。
从图4来看,使用ufs方法选择出的特征向量具有很好的可分性。对比不同特征值得分,在保证数据可分的同时尽量保留较多的信息,最终选择得分前八名的特征值。风速数据取均值、均方根、最小值、峰值指标、脉冲指标、最大值、波形指标、偏度,加速度数据取均方根频率、频率中心、整流均值、标准差、均方根、最大值、峰值和最小值。
3.3 2种svm的异常识别效果分析。
从数据中可以看出,普通二分类svm的整体分。
类错误率较低,错误集中在漏报上。一类svm的整体错误率较高,其中以正常样本为学习集时易出现误报,以异常样本为学习集时易出现漏报。当以正常集为学习集时,一类svm比普通二分类svm误报率更高、漏报率更低。
3.4 基于支持向量的异常识别方法改进。
在建筑结构健康监测中,误报导致检修成本提高、干扰正常使用等问题,漏报可能会导致建筑物舒适性差、甚至危及人身或财产安全。将2种方法结合:第一步,学习集采用正常数据,预设类别为正常,对测试数据进行一类svm分类;第二步,分类结果为异常的再用普通二分类svm进行分类。
分类结果见表5.对比前2种方法单独使用,结果显示其错误率下降,漏报率与误报率均为最优结果。
4 结论。本文采用机器学习方法,提出对建筑结构健康监测数据进行初步识别的新方法,并将其在上海中心和兰州西站的b/s监测数据系统中编程实现。
在数据特征向量的提取与选择上,分析常用pca法在监测数据特征提取中使不同数据混合不利于分类的问题,并与ufs法对比后,选择利于识别异常数据的特征向量。
在使用svm进行数据分类时,分析2种svm分类方法运用在监测数据分类中的效果,结合运用2种svm进行数据处理的有效方法,组合利用二者的优势使异常识别的漏报和误报减少。
采用这种数据初步识别办法,降低分析子系统运算压力,并且减少分析系统遗漏**、台风、仪器故障及其他问题导致的数据异常的可能,对优化改进结构预警系统有一定意义。参考文献:
李慧, 周文松, 欧进萍, 等。 大型桥梁结构智能健康监测系统集成技术研究[j]. 土木工程学报, 2006, 39(2):
46-52. doi: 10.
3321/
数据结构作业系统 第二章答案
2.11 设顺序表l中的数据元素递增有序。试写一算法,将x插入到l的适当位置上,并保。持该表的有序性。要求实现下列函数 void insertorderlist sqlist l,elemtype x 在有序的顺序表 l 中保序插入数据元素 x 顺序表类型定义如下 typedef 2.11 设顺序表...
统计常用的数据结构
常见的数据格式。1 完全随机设计原始数据 2组或多组 g 组别 x 分析指标 主要用于 统计描述 t检验 方差分析 秩和检验。2 完全随机设计频数表数据 g 组别 d 组段 f 频数 主要用于 统计描述 t检验 方差分析 秩和检验。3 卡方检验 r 行 c 列 f 频数 4 配对t检验 相关与回归 ...
生命系统的结构基础
基础自查明晰考位 纵引横连建网络 提醒 特设长句作答题,训练文字表达能力。边角扫描全面清 提醒 判断正误并找到课本原话。1 1 功能越复杂的细胞膜,蛋白质的种类和数量就越多。p41中部正文 2 细胞癌变过程中,有的癌细胞膜上会产生甲胎蛋白 癌胚抗原等特殊蛋白质。p41小字 2 台盼蓝染色鉴定活细胞,...