2017-10-09 80 views
0

我有一个数据集包含DNA序列,我想将它们转换成数字表示。本文件中:进入特征的DNA序列

DNA to Binary

  • 这是什么过程(转变),我想搜索一下吗?
  • 如何在python中应用它?
  • 它可以作为一个大数组,作为数据集输入吗?

回答

0

我相信你所指的过程是one-hot encoding。您首先需要使用的宽度3.滑动窗口在这里看到你的DNA序列转变成3BP字序列:Generate a list of strings with a sliding window using itertools, yield, and iter() in Python 2.7.1?

所以,你应该有类似的DNA“字”列表(例如['aaa', 'tgc'])然后你会想要将每个单词转换成一个向量。做到这一点的一种方法是创建一个字典,其中包含所有可能的单词和值的关键字,并带有单表示形式。然后,您可以使用列表理解和字典查找,简单地将每个单词转换为其相应的向量。这可能不是最有效的方式,但这是一个开始。 sklearn有OneHotEncoder,但它只适用于整数。请参见https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/