0
A
回答
0
我相信你所指的过程是one-hot encoding。您首先需要使用的宽度3.滑动窗口在这里看到你的DNA序列转变成3BP字序列:Generate a list of strings with a sliding window using itertools, yield, and iter() in Python 2.7.1?
所以,你应该有类似的DNA“字”列表(例如['aaa', 'tgc']
)然后你会想要将每个单词转换成一个向量。做到这一点的一种方法是创建一个字典,其中包含所有可能的单词和值的关键字,并带有单表示形式。然后,您可以使用列表理解和字典查找,简单地将每个单词转换为其相应的向量。这可能不是最有效的方式,但这是一个开始。 sklearn有OneHotEncoder,但它只适用于整数。请参见https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/
相关问题
- 1. 计算DNA序列
- 2. DNA序列操作
- 3. 查找DNA序列的互补序列
- 4. Tensorflow-特征列
- 5. 特征散列
- 6. DNA与蛋白质序列
- 7. Play 2.1 Json序列化特征
- 8. Upickle密封特征的序列化/反序列化
- 9. 拆分的DNA序列与d
- 10. 按特征值排序特征向量(相关排序)
- 11. 用于在Python中查找特征的非排序特征值
- 12. 网格上的排序特征值和特征向量
- 13. DNA配对,阵列
- 14. 带有bagof特征的SIFT特征
- 15. 二进制特征的组合(向量)
- 16. python numpy排序特征值
- 17. 特征
- 18. ObjectiveC:按特定顺序读取特征
- 19. 存储特征阵列列表
- 20. 用于分类特征的Tensorflow嵌入
- 21. 如何在Pandas中对时间序列数据进行特征化?
- 22. 的OpenLayers与类型特征的阵列WFS仅显示一个类型特征
- 23. dsygv中的特征向量的顺序
- 24. Scala中的有序特征的问题
- 25. 过滤矢量类型的“特征”列
- 26. 排列阵列中的DNA碱基对
- 27. 重新排列特征库中Schur因子分解的特征值
- 28. 特征工程的Ngram顺序选择
- 29. Python中时间序列数据集的特征工程
- 30. 具有外部特征的多个时间序列数据集