我一直在努力尝试 通过使用我自己的数据集找出列的作者。我应该为作者预测挖掘哪些算法/概念
我打算使用mlpy python库。它有很好的文档, (约100页pdf)。我也开放给其他图书馆 的建议。
事情是,我迷失在数据挖掘和机器学习 的概念。它有太多的工作,太多的算法和概念。
我在问方向,我应该学什么算法/概念, 和搜索我的具体问题。
到目前为止,我已经构建了一个类似这样的数据集。现在
| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A | 2 | 4 | 6 | .. |
| A | 1 | 1 | 5 | .. |
| B | 12 | 15 | 9 | .. |
| B | 13 | 13 | 13 | .. |
,我会得到一个新的列,并对其进行分析,之后,我将会对列的所有 的功能,我的目的是要弄清楚该列的 作者是谁。
由于我不是ML家伙,我只能想到在所有行上的 功能之间的距离,并选择最接近的一个。但我很确定 这不是我应该去的方式。
我会很感激的任何指示,链接,朗诵等
谢谢,我会处理它,让你知道它是如何去。 – 2013-03-20 18:22:41
我认为你在这里混合了一些东西。 scikits.ann和scikit-learn完全不相关的项目。 (尽管后者确实有k-NN实现。) – 2013-03-20 18:24:07
糟糕,我澄清了它。谢谢。 – petrichor 2013-03-20 18:26:46