2015-09-06 75 views
-1

这不是一个直接编程相关的问题,而是关于选择正确的数据挖掘算法。建议这种情况的数据挖掘算法

我有一些文件夹假设100个文件夹,这些文件夹的内容是图像和文本文件,我有这些文件夹的excel表(100表),这意味着每个文件夹都有特定的表格,这个excel表格内容如下:

在标题(列标题)中包含此文件夹的内容,并且行包含我将检查的文件(我的测试文件)此表中的值是o和1的文件,如果在该文件夹中找到该文件,则值为1否则O,这些测试文件名相同的所有文件夹,

问:什么是最好的数据挖掘算法可以在Excel文件表工作,可以群集这些文件夹浅编辑测试文件内容,例如群集1包含文件夹,其中包含文件1和文件20以及文件25 ..等等..考虑使用matlab语言?

感谢...

回答

1

这里的英语是有点混乱,所以我最好解释这个问题,我可以。你想在这里做什么似乎并不需要任何复杂的算法。继续采取您的Excel数据并将其导出为CSV,以便您可以在Matlab中工作。

现在你有数据如下:

Folder -> [ Files ]

你可能想建立一个索引是这样的:

File -> [ Folders ]

这样一来,你当你提出这样的问题: “文件夹中包含哪些文件1,20和25”,你可以看一下(在固定时间)3两件事:

  1. 文件夹包含文件包含文件包含文件25

再取那些集合的交集20个

  • 文件夹1个
  • 文件夹。

    ============================================== =====

    你可能有兴趣做的另一件事是“集群”。为此,请继续并将文件夹描述符(1和0)作为特征/向量。然后继续并在其上运行任何聚类算法。 K-means聚类是一种在Matlab中实现的简单方法。

    [1] https://en.wikipedia.org/wiki/Cluster_analysis