请参赛选手首先详细阅读参赛须知!
a题:指纹识别技术。
当今网络化时代,如何准确地判断一个人的身份,已经成为一个亟须解决的关键问题。传统的身份认证手段容易伪造或者丢失,越来越难以满足社会的需求,目前比较方便与安全的解决方式就是生物特征识别技术。生物特征识别方法主要包括:
指纹识别、人脸识别、步态识别、虹膜识别、签名识别等。其中指纹识别技术是一种比较有效的生物特征识别方法,由于其具备唯一性、终身不变性和方便性,已经成为生物特征识别领域比较常用的身份鉴定手段。近年来,指纹识别技术不仅应用于门禁、考勤系统,还在刑侦、社保、银行支付等诸多领域得到了广泛应用,而且下一代身份证也将嵌入指纹识别技术。
指纹识别技术主要包括指纹采集、图像预处理、特征提取和指纹匹配四个步骤。虽然现在又很多指纹软件产品,但是在实际问题中指纹存在脱皮、划痕、汗水、变形、残缺等现象;因此,如何提高指纹软件产品在实际应用中的精度和速度任然是一个难题。请查阅资料解决下列问题:
1、数据集data_1中包含用光学传感器采集的10个人的指纹,每个人采集6次,图像大小为640×480,分辨率为500 dpi,请你建立模型并设计算法,判断数据集data_1a中每一枚指纹是哪个人的;
2、数据集data_2中包含用光学传感器采集的10个人的指纹,每个人采集4次,图像大小为328×364,分辨率为500 dpi,请你建立模型并设计算法,判断数据集data_2a中每一枚指纹是哪个人的?
3、数据集data_3中包含用热扫描传感器采集的10个人的指纹,每个人采集6次,图像大小为300×480,分辨率为512 dpi,请你建立模型并设计算法,判断数据集data_3a中每一枚指纹是哪个人的?
b题:基因组组装。
快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的dna或rna分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。
确定基因组碱基对序列的过程称为测序(sequencing)。测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。
尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为。
ataccttgctagcgt
gctagcgtaggtctga
则有可能基因组序列中包含有ataccttgctagcgtaggtctga这一段。当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。
连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。
利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。
常用的组装算法主要基于olc(overlap/layout/consensus)方法、贪婪图方法、de bruijn图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。
问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。
问题二:现有一个全长约为120,000个碱基对的细菌人工染色体(bac),采用hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度(sequencing depth)约为70×,即基因组每个位置平均被测到约70次。试利用你的算法和程序进行组装,并使之具有良好的组装效果。
附录一:测序策略。
测序策略如下图所示。dna分子由两条单链组成,在图中表现为两条平行直线,两条直线上相对位置的两个碱基相互结合形成碱基对(bp),并且与碱基a结合的碱基必为t,与碱基c结合的碱基必为g。将一个含120,000个bp的完整基因组,随机打断成500bp的片段,然后对500bp的片段进行测序。
测序方法如第3步所示,分别从500bp片段的两端,对两条单链进行测序,测得的读长记为reads1,reads2。reads1,reads2的长度均为88bp,且该对reads相距500bp。
图1 测序策略示意图。
更详细的测序策略描述参见。
附录二:数据格式。
读长数据格式为fastq格式:
每4行表示一条reads
第一行:@序列id,包含index序列及read1或read2标志;
第二行:碱基序列,大写“acgtn”;
第三行:“+省略了序列id;
第四行:质量值序列:字符的ascii码值-64=质量值。
更详细的fastq格式介绍参见。
附录三:读长数据。
测序得到的读长数据存放于两个fastq文件中(见附件一),其中mcmc_bac_和mcmc_bac_分别存放reads1和reads2的数据。
注:后缀为clean的文件可用microsoft word 2010等软件打开。)
c题:计划生育政策调整对人口数量、结构及其影响的研究。
人口的数量和结构是影响经济社会发展的重要因素。从20世纪70年代后期以来,我国鼓励晚婚晚育,提倡一对夫妻生育一个孩子。该政策实施30多年来,有效地控制了我国人口的过快增长,对经济发展和人民生活的改善做出了积极的贡献。
但另一方面,其负面影响也开始显现。如小学招生人数(2023年以来)、高校报名人数(2023年以来)逐年下降,劳动人口绝对数量开始步入下降通道,人口抚养比的相变时刻即将到来,这些对经济社会健康、可持续发展将产生一系列影响,引起了**和社会各界的重视。党的十八届三中全会提出了开放单独二孩,今年以来许多省、市、自治区相继出台了具体的政策。
政策出台前后各方面人士对开放“单独二孩”的效应有过大量的研究和评论。
人口问题有着悠久的研究历史,也有不少经典的理论和模型。这些理论和模型都依赖生育模式、生育率、死亡率和性别比等多个因素。这些因素与政策及人的观念、社会文化习俗有着紧密的关系,后者又受社会经济发展水平的影响。
研究中用到的数据的置信水平也与调查统计有关。
请收集一些典型的研究评论报告,根据每十年一次的全国人口普查数据,建立模型,对报告的假设和某些结论发表自己的独立见解,并针对深圳市或其他某个区域,讨论计划生育新政策(可综合考虑城镇化、延迟退休年龄、养老金统筹等政策因素,但只须选择某一方面作重点讨论)对未来人口数量、结构及其对教育、劳动力供给与就业、养老等方面的影响。
太原师范学院数学建模竞赛试题
请先阅读 太原师范学院数学建模竞赛 格式规范 a题出租车收费问题。某大城市出租车行程不足时,车费是元 行程不足时,大于等于的部分,每公里车费是元 行程大于等于部分,每公里车费元。计程器每计一次价。例如,当行驶路程满足时,按计价 当时,按计价。途中因红灯等原因停车等候,等候时间每计一次价,收费元。例如...
2023年漳州师范学院数学建模选讲题目
题目。注 a,b两题任选一题 a题 产销问题。09数本 一 班。周东海090401145 产销问题数学模型。摘要 本文主要针对某企业中各方面因素对利润和成本的影响进行了综合分析。在生产企业中,产品的成本由多方面组成 原材料成本 库存成本 外包费用以及员工工资等等。而在该产品当月的需求不能得到满足时,...
2023年渭南师范学院数学建模竞赛试题A
2012 渭南师范学院大学生数学建模竞赛题目。请先阅读1.渭师院数学建模竞赛 格式规范 2.如何撰写数学建模 3.渭师院数学建模竞赛评卷要求。a题 深圳人口与医疗需求 深圳是我国经济发展最快的城市之一,30多年来,卫生事业取得了长足发展,形成了市 区及社区医疗服务系统,较好地解决了现有人口的就医问题...