数据挖掘在生物信息中的应用有哪些?


人类基因组计划的启动和实施使得核酸、蛋白质数据迅速增长,如何从海量数据中获取有效的信息成为生物信息学迫切要解决的问题。数据挖掘技术用于在数据库中发现潜在有用的知识,在生物信息学研究中,正发挥着越来越重要的作用,而且取得了丰硕的成果。那么数据挖掘在海量生物信息中有哪些方法和应用呢?
已邀请:

赞同来自: BioStar 苏李


数据挖掘是从大量数据中提取可信的、新颖的、有效的模式的高级处理过程。
生物信息学是一门新兴的交叉学科。人类基因组计划的启动和实施使得核酸、蛋白质数据迅速增长,如何从海量数据中获取有效信息成为生物信息学迫切要解决的问题。目前数据挖掘在生物信息领域的研究重点主要表现在以下几个方面:
(1) 数据清理,数据集成,异种、分布式数据库的语义集成。
许多国家和研究组织都建立了生物序列数据库、蛋白质结构和功能数据库,为人们提供了丰富的信息。但是这些数据分散,且存储介质多样,在同一数据库中存在着大量具有重复信息的序列及一些高度相似的数据,造成数据冗余。因此对这种异构的和广泛分布的数据库的语义集成就成为一项重要任务。数据挖掘中的数据清理、数据集成方法有助于该问题的解决。
(2) DNA 序列相似搜索和比对。
为识别一个新发现的基因和一个已知基因家族之间的进化关系,确定他们的同源性或相似性,通常需要序列比对,找出它们之间的最大匹配,从而定量给出其相似程度。由于序列数据是非数字的,其内部不同种类核苷酸之间的精确交叉扮演着重要的角色。因此探索高效的搜索和比对算法在序列分析中非常重要。
(3) 基因组特征及同时出现的基因序列的分析。
对于基因家族的成组序列来说,必须阐明多个序列之间的关系,才能揭示整个基因家族的特征。多序列比对在识别一组相关序列中有重要生物意义。多比对算法的计算量可观,为降低算法复杂性,必须研究有实用价值的比对算法。利用关联规则、聚类分析有助于发现一组序列之间的差异以及相似性关系,以便对一个基因家族的特征有基本了解。另外在生物医学研究上,人们发现疾病的产生大多数是由多基因决定的,利用关联规则分析帮助确定在目标(疾病) 样本中同时出现的基因种类。
(4) 路径分析:发现在不同阶段的致病因。
引起一种疾病的基因不止一个,不同基因在疾病的不同阶段发挥作用。利用路径分析、演变分析等找到在不同阶段的致病遗传基因序列,可开发不同阶段的治疗药物,从而取得更有效的治疗效果。
(5) 生物数据可视化和可视的数据挖掘。
由于生物数据的复杂性和高维性,既不能以数字公式表示,也不能以逻辑公式表示,可借助各种可视化工具以图、树、方体、链的形式展现其复杂结构和序列模式。常用的生物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等 。同时,将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户,便于用户寻找数据间规律和关系。
(6) 生物文献的挖掘。
Internet 上生物文献日益增多,人们通过搜索引擎获取相关信息,但检索结果数目巨大,准确率不高,而且一般搜索结果只能给出标题和摘要,不能给出文章总的关键词句。特别是生物文献数据中,大多数蛋白质名称都是复合词,比较复杂,有的却采用普通的词汇命名与其常用词义相混导致引擎搜索错误,甚至在一篇文献中同一种蛋白质有好几种命名出现,增加了搜索困难。利用路径遍历模式、链接分析、自然语言处理等技术寻找文献中关键词如蛋白质名称,或捕捉上下文关系,可提高检索速度和准确率 。
(7) 基于隐私保护的数据挖掘。数据挖掘技术为生物工作者提供了有效工具的同时也引发了隐私保护问题。比如研究单位的保密实验数据,个人的医疗诊断记录、病史记录都有可能被误用。通过在数据挖掘过程中使用限制数据访问,模糊数据,减少不必要分组,有目的增加噪声数据等方法来达到保护隐私的目的 。目前在该领域的研究尚处于起步阶段。

赞同来自: 苏李


维克托·迈尔的《大数据时代》给我们展现了一个新的世界,技术引领我们进入数据时代。从海量的数据中挖掘处有价值的方便,有效的分析技术是大数据应用的关键。大数据的成功应用案例之一是google利用检索词预测流感爆发。
但是通用的分析技术,降低分析硬件需求仍然值得讨论,SaaS可能是解决这一问题的可能渠道,但是如何实现数据分析仍然是个问题,现有MapReduce,Hadoop等系统本质上是治标不治本,大数据碎片化的过程中必然数据大量数据关联。
还有另外一个问题也会随着出现,深身处于大数据时代的人们可能会感到信息的爆炸以及信息的暴露,在进行研究的同时我们不能忘却道德的底线!

赞同来自:


生物信息学是一门新兴的交叉学科。人类基因组计划的启动和实施使得核酸、蛋白质数据迅速增长,如何从海量数据中获取有效信息成为生物信息学迫切要解决的问题。数据挖掘与生物信息学有很好的结合点,在生物信息学领域的应用潜力日益受到人们的重视。序列分析、基因表达、同源研究、蛋白质结构预测以及药物设计为数据挖掘提供了广阔的研究空间,也显示了数据挖掘在这些方面的发展潜力。利用数据挖掘技术,将帮助人们认识生物数据所蕴涵的结构和功能信息,进而彻底了解生物数据所代表的生物学意义,帮助人们认识自然界各种生物的遗传信息,认识病毒和细菌的真正面目,研制与开发新药物等等。

要回复问题请先登录注册