2012高教社杯全国大学生数学建模竞赛。
葡萄酒的评价。
摘要。随着如今葡萄酒理化指标检测手段的进步,利用酿酒葡萄及葡萄酒的理化指标对葡萄酒进行质量判别已成为现代检测葡萄酒质量的一种趋势,为此,本文做了如下研究,来分析葡萄及葡萄酒的理化指标对葡萄酒质量的影响。
对于问题一,利用spss软件的k-s检验分析每组评酒员打分,得到每种样本集的打分均符合正态分布,再利用matlab中的ttest2函数对样本进行t检验,以检验第一组评酒员与第二组评酒员评分结果的显著性差异,得到两组评酒员的评价结果具有显著性差异;最后综合运用信度分析和均标准差方法来求可信度,得出第二组评酒员的评价结果更可信。
对于问题二,先将第二组评酒员得出的葡萄酒质量结果,利用灰色模型,对每种样品的十个得分灰色数据融合算法计算,得出更合理的葡萄酒质量得分,结果见表5和表6。再利用spss对酿酒葡萄的理化指标分别采用相关性分析和主成分分析模型,对酿酒葡萄进行排名,得到结果见表11和表12;最后再利用不同权值得出酿酒葡萄的得分,结果见表13,分别对酿酒葡萄得分结果进行聚类分析,选出其中一组符合定义的葡萄级别**分割型,最终权重及酿酒葡萄的分级见表14。
对于问题三,针对所给样本建立了bp人工神经网络,并对其进行了训练,得到的结果表明,建立的网络可以很好表现白葡萄和白葡萄酒的理化指标之间的联系,对红葡萄的表现则不如表现白葡萄和白葡萄酒之间的联系。
对于问题四,,求得红葡萄酒和白葡萄酒各自变量的权重,求得红酒和白葡萄酒的复相关系数均为0.5;再使用主成分分析方法得到主要芳香物质,然后以葡萄、葡萄酒的理化指标以及芳香物质与葡萄酒质量得分之间再次建立多元线性回归模型,得到红葡萄酒和白葡萄酒的各自变量的权重,以及得到加入芳香物质指标后的红酒复相关指数为0.6261,白酒的复相关指数为0.
5,白酒的复相关系数无变化,可以得出对于红酒单纯用葡萄和葡萄酒的理化指标不足以评价葡萄酒的质量,而对于白葡萄酒则可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
关键词: 葡萄酒评价灰色模型主成分分析 bp神经网络理化指标。
1. 问题重述。
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1)分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
模型假设与符号说明。
2.1 模型假设。
(1)假设题目中所有调查数据真实可信;
2)假设在葡萄酒品尝时的评价标准是客观的,符合实际情况;
(3)假设当仪器没有检测到该样品成分时,其含量为零;
(4)假设酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系;
(5)假设酿酒葡萄和葡萄酒有效理化指标的主要成分对葡萄酒质量仅产生线性影响。
(6)假设两组评酒员对样本就的评价结果数据是两组独立的样本;
2.2 符号说明。
:第一组的10个品酒员对第种红葡萄酒的评分集合();
:第二组的10个品酒员对第种红葡萄酒的评分集合();
:第一组的10个品酒员对第种白葡萄酒的评分集合();
:第二组的10个品酒员对第种白葡萄酒的评分集合();
:每个评分集合的样本容量,本题中=10;
2. 问题分析。
3.1 问题(1)分析。
该问题要求分析附件1中两组评酒员的评价结果有无显著性差异,并且要得到哪一组结果更可信。题目中分别给出了两组评酒员对27种红葡萄酒和28种白葡萄酒基于各项评分标准的得分情况。
本文首先对每种酒的分类指标求和,得到每个评酒员对每种酒的总得分,这些总得分可以分为4类:第一组红葡萄酒品尝总分、第一组白葡萄酒品尝总分、第二组红葡萄酒品尝总分以及第二组白葡萄酒品尝总分,然后对这四类数据从显著性差异和可信度方面进行进一步分析。
关于显著性差异,通常情况下,实验结果达到0.05水平或0.01水平,才可以说数据之间具备了差异显著或是极显著。
在作结论时,应描述方向性(例如显著大于或显著小于)。值通常用表示差异性不显著;表示差异性显著, <0.01表示差异性极显著。
具体从以下几个步骤进行讨论研究。
对于上述四类葡萄酒品尝总分数据,将每组数据中一个样品酒的10个总得分数据记为一组样本数据,用字母或表示。第一步用k-s单样本检验方法来检验这组样本数据的实际分布是否符合对应的理论分布,经过进一步计算得到,这些样本数据均服从正态分布。在符合正态分布的前提下,如果总体标准差未知,而且样本容量,那么这时一切可能的样本平均数与总体平均数的离差统计量呈分布。
第二步对对应一种样品酒的两组样本集合进行检验,通过对双总体检验来检验两组样本平均数与其各自所代表的总体的差异是否显著。第三步得到两组品酒员的评价结果是否有显著性差异。
关于结果的可信度,我们运用了两种方法来确定其可信度,一种是通过计算标准差的方法,如果一组数据的标准差越大,说明各个品酒员之间评分存在异议的程度越大,结果的不确定性也越大,导致结果的可信度低。另一种是通过信度分析来评价这组数据的可靠性。信度反映了测验结果的一致性或稳定性,是被测特征真实程度的指标。
信度分析的主要方法有重测信度法、折半信度法和信度系数法。本文则选用了常用的信度系数法对结果的可信度进行信度分析。
3.2 问题(2)分析。
问题(2)是根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。题目附录2中给出了酿酒葡萄的55个理化指标,其中有一级指标和二级指标,而葡萄酒的质量是由评酒员的打分来确定的。根据对问题(1)的分析与计算,得到第二组评酒员的结果更为可信,因此本文采用第二组评酒员评分作为葡萄酒的质量。
酿酒葡萄的分级既受制于葡萄的理化指标,又与其所酿成的葡萄酒的质量有关(将葡萄的理化指标和葡萄酒的质量称为一组变量)。由于酿酒葡萄的分级与这组变量有关,而且变量的维数很大,所以很难直接考虑它们与结果的关系。当考察的变量是一组变量(多于两个变量)时,则需要考察这一组变量总体的相关性,也可称为多元整体相关性分析。
所以对第二题,本文采用如下的思路进行求解。
第一步通过对酿酒葡萄的理化指标和葡萄酒的质量进行相关性分析,考察多个变量整体的相关性,剔除相关性较小的指标,留下相关性较大的指标;第二步对剩下的指标再通过主成分分析法,用维数极少的互补相关的新变量来反映原变量所提供的绝大部分信息;第三步通过对新变量的分析计算得到葡萄基于理化指标的得分情况。但是这并没有把葡萄酒的质量考虑在内,所以第四步本文以葡萄的理化和葡萄酒质量这两个指标设置不同权重,综合考虑葡萄酒质量的分数排名和理化指标的分数排名,最终利用聚类分析确定葡萄的得分分级。
3.3 问题(3)分析。
此问题采用bp神经网络进行求解,bp(back propagation)神经网络是2023年由rumelhart和mccelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。bp网络能学习和存贮大量的输入到输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。由此我们可以将bp神经网络应用于该多因变量的多元线性回归分析上,利用问题中提供的酿酒葡萄的经过相关性等方法得到部分的理化指标作为bp网络的输入,葡萄酒质量的得分为网络输出层进行训练,最后得到一个可信的网络,用这个网络来表示酿酒葡萄与葡萄酒质量之间的联系。
3.4 问题(4)分析。
本题要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。在前三个题的基础上,首先通过主成分分析法将原有的大量指标降维,得到既能反映指标的特征,指标维数较小的主要成分。根据是否考虑芳香物质对葡萄酒质量的影响,将问题分为两个方面进行讨论。
1)不考虑芳香物质的影响。
将葡萄和葡萄酒的理化指标作为因变量,以第一问求得的葡萄酒质量为自变量,分别围绕着红葡萄的27组数据和白葡萄的28组数据,采用多元线性回归的方法对数据拟合,然后对拟合曲线与原始点的差异进行讨论分析,得出反映多元线性回归的拟合度的参数。
2)考虑芳香物质的影响。
对各项芳香物质进行主成分分析后,得到了芳香物质的主要成分。将芳香物质的主要成分和葡萄以及葡萄酒理化指标的主要成分一起作为因变量,以葡萄酒质量作为自变量,依然采用和(1)相同的方法,得出一组反映多元线性回归的参数。然后对比参数之间的差异,得出结果。
3. 建模前的准备。
4.1 数据的预处理。
考虑到本题涉及的数据量特别庞大,因此对这些数据进行预先的处理也很重要,本文从以下几个方面对数据进行预处理。
1)剔除无效数据:
在题目的附录1中,所给数据出现了缺失与错误:第一组红葡萄酒品尝评分表**f76的数据缺失以及第一组白葡萄酒品尝评分表**j233的数据有误(满分8分,此处为77分),对于此类问题,本文通过对其他9名品酒员在该项目得分的均值作为此缺失或错误的数据。
(2)分类指标求和:
在附录1中,每个评酒员在对葡萄酒进行品尝后对其分类指标打分,通过对各分类指标求和得到其总分,确定出葡萄酒的质量。
(3)多次测量均值:
在附录2中,有些项目/理化指标测试了不止一次,通过对这几次的测量结果求平均值,来减少误差。
4.2 用灰色模型计算酒样品的总分。
在这个问题中一个酒样品由10个评酒员进行打分,按照通常的做法,我们会去掉一个最高分,去掉一个最低分,剩下的取平均值作为样品酒的最后得分。可是,严格的讲,如果评酒员比较权威,最高分最低分也反映了样品酒某方面的一些情况,贸然去掉的话会损失一些信息,因此本文采用了灰色数据融合算法(算法的进一步介绍可见参考文献[5],第184-186页),不但充分利用这些信息,而且这些信息又不会对结果造成决定性的影响。在后面的计算中用到的酒样品分数都是通过灰色模型计算出的。
2023年数学建模
2014年兰州理工大学数学建模竞赛题。b题 节能减排与大气环境。环境保护是重大民生问题,随着社会对环境保护的日益重视,人们越来越重视环境的改善,工业革命以来,世界各国尤其是西方国家经济的飞速发展是以大量消耗能源资源为代价的,并且造成了生态环境的日益恶化。节约能源资源,保护生态环境,已成为世界人民的广...
2023年数学建模
题目 最小二乘法建立经验公式。浙江理工大学启新学院。二零一二年三月二十四日。摘要 某种合金的溶解温度会随含铅量的变化而变化,既不同的含铅量的该合金的溶解温度不同。为了研究其溶解温度随含铅量的百分比变化规律,我们分析了有关数据,参考了一些数学模型,最终采用了最小二分法建立求出了该模型。关键词 最小二乘...
2023年数学建模
碎纸片的拼接复原。摘要。碎纸片的拼接复原主要采集碎纸片边缘信息的挖掘,利用碎纸片边缘构造特征因子,利用特征因子来描述碎片边缘的行列特征,然后根据碎纸片边缘提供的信息进行调整,并对贪心算法进行改进,找到有效克服局部最优解的拼接算法。问题1 首先,纸片采取的是纵向切割,利用matlab软件对纸片左右边缘...