2014-09-05 66 views
0

我手头有一个问题陈述,我需要知道它是否可以通过机器学习来解决。它是这样的: -带动态类集的多标签分类的局限性

我在其中一个用户可以上传文件,所以让我们说我们有一个名为 xxxZxxx.xxx

用户进入多层次到系统的文件夹结构,并将该文件系统文件,(比如说) A/B/C/d/Z/xxxZxxx.xxx

我们需要一个系统,读取文件名并建议 路径它在哪里放置。

在这种情况下,文件名包含路径的最后一部分,这是一个Business Object目录,但它可能不包含。我们有10^5的路径和文件。

和新路径,即可以随着时间增值业务对象,这使它成为一个多类分类与大约10^5类,不断提高

这是可以解决的?

我尝试使用一袋字符(灵感来自单词袋)作为失败的特征向量。

对此可以遵循的任何方法有何评论?让我知道是否需要其他信息我将编辑问题或更改标签。

回答

0

所以要使它成为真正的ML问题,请回答下列事项:

1)为什么水湿你刚才读的文件名,并获得该文件需要被放置在CHID文件夹?是否因为如你所说用户可能没有证明子文件夹的名称作为文件名的一部分?还是因为可能有许多用户提供的名称的目录?

2)ML问题通常具有统计性​​质的模式,这些模式很难用简单的裸眼识别,例如,使用正则表达式。在这里,您可以使用正则表达式搜索轻松找到适当的文件夹,不是吗?

+0

嗨,我已经通过你提到的选项。用户可能会或可能不会将文件名称作为子文件夹,尽管它只有一个。这不是一个可以使用reg-ex的问题。我们正试图在人们的命名规则中找到一种模式,如果这样做更清楚的话。 – divyenduz 2014-09-05 12:46:05

+0

所以你说用户可能会提供一个可能与已经存在的目录相匹配的名称,或者它可能是一个完全不同的名称。而且你不知道用户命名约定,因此你不知道要寻找什么样的模式。 如果以上是真的,你想把它变成ML问题,那么它必须是一个监督学习。你有以前的用户数据在哪里你已经知道什么用户给文件名corressponds什么目录结构?如果有,那么我们可以进一步考虑把这个问题作为一个ML问题,否则所有的希望都会丢失,我认为它是一个ML问题。 – 2014-09-05 18:54:06

+0

为什么很难把它当成一个无监督的学习问题是因为你正在期待(或有)对用户向你抛出的每个文件名的100%正确响应。因此,对于每个数据点(文件名),您都有一个明确的标签(目录结构) – 2014-09-05 18:55:31