2010-11-30 88 views
10

什么是生物信息学参与者应该知道的一些数据结构?我想任何人都应该知道列表,哈希,平衡树等,但我期望有特定于域的数据结构。有没有专门讨论这个问题的书?生物信息学的数据结构

回答

6

生物信息学中使用的最基本的数据结构是字符串。还有一系列代表字符串的不同数据结构。而字符串匹配等算法则基于高效的表示/数据结构。

这一综合性工作是丹Gusfield的Algorithms on Strings, Trees and Sequences

+0

同意。古斯菲尔德的书很全面。 – awesomo 2010-11-30 07:59:06

4

一个生物信息学很多入门书籍将介绍一些你会使用的基本结构。我不确定标准课本是什么,但我相信你可以找到。这可能是看一些具体的语言书籍有用:我选择了这两个作为例子,因为它们是由O'Reilly出版,

其中,以我的经验,出版高质量的书籍。

我只是碰巧在我的硬盘上安装了Python书籍,其中大部分内容都是关于使用Python处理生物信息学字符串的。它似乎不像生物信息学使用任何奇特的特殊数据结构,只是现有的。

2

生物信息学中的许多项目涉及结合来自不同的半结构化来源的信息。 RDF和本体在很多方面都是必不可少的。例如,参见bio2RDF项目。 http://bio2rdf.org/。对标识符的理解很有价值。

许多生物信息学是探索性的,而且经常使用快速轻量级的工具。请参阅工作流程工具,例如Taverna,其中主要资源通常是一组Web服务 - 因此HTTP/REST很常见。

3

例如空间散列数据结构(kd-tree)通常用于任意特征向量的最近邻查询以及3d蛋白质结构分析。

您$$的最佳书籍是Understanding Bioinformatics by Zvelebil,因为它涵盖了从序列分析到结构比较的所有内容。

1

无论您的数学或计算专业知识是什么,您都可能在计算生物学中找到应用。如果没有,请将这个另一个stackoverflow的问题,你会得到帮助:o)

正如在其他答案中提到的,在一维数据的字符串比较和模式发现有些永恒,因为序列是如此容易得到。随着对医学信息学的重新兴趣,您还可以进行二维/三维图像分析,例如运行针对基因组数据。通过分子生物化学,您还可以在3D表面和分子模拟上进行模式搜索。为了研究药物效应,您将使用基因网络并比较各种组织。大数据和信息集成的典型挑战适用。然后,您需要对偶然发现的任何特征的模式或临床关联可能性的统计描述。