2023年基因组数学建模

发布 2020-04-15 16:21:28 阅读 1463

封一。答卷编号(参赛学校填写):

答卷编号(竞赛组委会填写):

**题目: (标明a、b、c、d之一)

b 组别:(填写研究生、本科生、专科生或中学生)

本科生 参赛队员信息(必填):

参赛学校:沈阳理工大学。

封二。答卷编号(参赛学校填写):

答卷编号(竞赛组委会填写):

评阅情况(学校评阅专家填写):

学校评阅1.

学校评阅2.

学校评阅3.

评阅情况(联赛评阅专家填写):

联赛评阅1.

联赛评阅2.

联赛评阅3.

在世界生物界的飞速发展的今天,我国生物界对于基因组组装也有了一定的突破。尤其是在测序技术上,我国从第一代技术发展到第二代技术,现在正步入第三代技术,但是目前能直接读取的碱基对序列长度远小于基因组序列长度,为了让组装效果更完整,连续和准确,我们利用概率论与数理统计,c语言,和多目标规划,以及c++、matlab等软件,参考了国内外生物界、医学界有关基因组组装技术,以olc技术为核心,建立了集完整、准确、连续为一体的优化模型,来解决测序中可能会出现的问题。具体如下:

对于问题一:

首先利用olc技术,将附件中给出的测序之后的碱基对,建立优化模型,该模型能够利用多条约束条件来求质量的最小值。利用c++软件来进行两两比较,选择出重复的部分作为结点,其他的部分作为有向线段,利用有向图来选择一条质量最重的一条链,但是可能会存在测序中个别碱基对的错误,所以,将所测出的的最重的这条链所有的结点全部去掉,再将剩下的碱基对重新利用olc法来组装,重复该种实验3-4次,见附录的程序,一定会有质量相同的两条链,则这两条链的组成就是最完整准确的。这个程序的试验次数少,完成组装的时间少。

针对组装后的基因组中可能会出现重复片段的问题,我们利用c++软件,建立了优化模型,采取的方法是在olc技术的基础上,检测有向图,判断结点的重复次数,进行标记,直到检测出同一结点前后两条有向线段并不相同,才是无重复基因组的基因组装。

对于问题二:

现有一个全长约为120,000个碱基对的细菌人工染色体(bac), 采用hiseq2000测序仪进行测序,测序深度(sequencing depth)约为70×,即基因组每个位置平均被测到约70次。利用c++软件,建立优化模型,在olc技术的基础上,基于问题一所做的程序(见附录),将附件一和附件二的碱基对输入到程序中,组装成完整、准确、连续的基因组,所得的结果就是最完整、准确、连续的基因组。

关键字:olc技术 c++ 碱基对优化模型 matlab 多目标规划。

快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的dna或rna分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。

测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。

通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。

连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。

利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。

常用的组装算法主要基于olc(overlap/layout/consensus)方法、贪婪图方法、de bruijn图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。

数学建模07年A组试题

2007高教社杯全国大学生数学建模竞赛题目。请先阅读 对 格式的统一要求 a题 中国人口增长 中国是一个人口大国,人口问题始终是制约我国发展的关键因素之一。根据已有数据,运用数学建模的方法,对中国人口做出分析和 是一个重要问题。近年来中国的人口发展出现了一些新的特点,例如,老龄化进程加速 出生人口性...

数学建模07年B组试题

2007高教社杯全国大学生数学建模竞赛题目。请先阅读 对 格式的统一要求 b题 乘公交,看奥运。我国人民翘首企盼的第29届奥运会明年8月将在北京举行,届时有大量观众到现场 奥运比赛,其中大部分人将会乘坐公共交通工具 简称公交,包括公汽 地铁等 出行。这些年来,城市的公交系统有了很大发展,北京市的公交...

2019数学建模

北京工业大学数学建模。学号组员 12044119 陈礼欣。12044121 邓旺华。12044120 周伟林。题目 a题 小镇出租车数量的估计问题。答。因为出租车号属于平均分布,那么任意一组出租车号牌数值的平均数必定属于均值和方差的正态分布。而出租车的总数为均值的两倍。我们将133个车牌号码分成19...