进入特征的DNA序列

我有一个数据集包含DNA序列，我想将它们转换成数字表示。本文件中：进入特征的DNA序列

这是什么过程（转变），我想搜索一下吗？
如何在python中应用它？
它可以作为一个大数组，作为数据集输入吗？

2017-10-09 Tina

我相信你所指的过程是one-hot encoding。您首先需要使用的宽度3.滑动窗口在这里看到你的DNA序列转变成3BP字序列：Generate a list of strings with a sliding window using itertools, yield, and iter() in Python 2.7.1?

所以，你应该有类似的DNA“字”列表（例如['aaa', 'tgc']）然后你会想要将每个单词转换成一个向量。做到这一点的一种方法是创建一个字典，其中包含所有可能的单词和值的关键字，并带有单表示形式。然后，您可以使用列表理解和字典查找，简单地将每个单词转换为其相应的向量。这可能不是最有效的方式，但这是一个开始。 sklearn有OneHotEncoder，但它只适用于整数。请参见https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/

来源

2017-10-09 15:31:54 brinebroker

进入特征的DNA序列

回答

相关问题