建议这种情况的数据挖掘算法

-1

这不是一个直接编程相关的问题，而是关于选择正确的数据挖掘算法。建议这种情况的数据挖掘算法

我有一些文件夹假设100个文件夹，这些文件夹的内容是图像和文本文件，我有这些文件夹的excel表（100表），这意味着每个文件夹都有特定的表格，这个excel表格内容如下：

在标题（列标题）中包含此文件夹的内容，并且行包含我将检查的文件（我的测试文件）此表中的值是o和1的文件，如果在该文件夹中找到该文件，则值为1否则O，这些测试文件名相同的所有文件夹，

问：什么是最好的数据挖掘算法可以在Excel文件表工作，可以群集这些文件夹浅编辑测试文件内容，例如群集1包含文件夹，其中包含文件1和文件20以及文件25 ..等等..考虑使用matlab语言？

感谢...

2015-09-06 azifallail

这里的英语是有点混乱，所以我最好解释这个问题，我可以。你想在这里做什么似乎并不需要任何复杂的算法。继续采取您的Excel数据并将其导出为CSV，以便您可以在Matlab中工作。

现在你有数据如下：

Folder -> [ Files ]

你可能想建立一个索引是这样的：

File -> [ Folders ]

这样一来，你当你提出这样的问题： “文件夹中包含哪些文件1，20和25”，你可以看一下（在固定时间）3两件事：

再取那些集合的交集20个

文件夹1个

文件夹。

============================================== =====

你可能有兴趣做的另一件事是“集群”。为此，请继续并将文件夹描述符（1和0）作为特征/向量。然后继续并在其上运行任何聚类算法。 K-means聚类是一种在Matlab中实现的简单方法。

2015-09-06 22:43:51 James

回答