我手头有一个问题陈述,我需要知道它是否可以通过机器学习来解决。它是这样的: -带动态类集的多标签分类的局限性
我在其中一个用户可以上传文件,所以让我们说我们有一个名为 xxxZxxx.xxx
用户进入多层次到系统的文件夹结构,并将该文件系统文件,(比如说) A/B/C/d/Z/xxxZxxx.xxx
我们需要一个系统,读取文件名并建议 路径它在哪里放置。
在这种情况下,文件名包含路径的最后一部分,这是一个Business Object目录,但它可能不包含。我们有10^5的路径和文件。
和新路径,即可以随着时间增值业务对象,这使它成为一个多类分类与大约10^5类,不断提高
这是可以解决的?
我尝试使用一袋字符(灵感来自单词袋)作为失败的特征向量。
对此可以遵循的任何方法有何评论?让我知道是否需要其他信息我将编辑问题或更改标签。
嗨,我已经通过你提到的选项。用户可能会或可能不会将文件名称作为子文件夹,尽管它只有一个。这不是一个可以使用reg-ex的问题。我们正试图在人们的命名规则中找到一种模式,如果这样做更清楚的话。 – divyenduz 2014-09-05 12:46:05
所以你说用户可能会提供一个可能与已经存在的目录相匹配的名称,或者它可能是一个完全不同的名称。而且你不知道用户命名约定,因此你不知道要寻找什么样的模式。 如果以上是真的,你想把它变成ML问题,那么它必须是一个监督学习。你有以前的用户数据在哪里你已经知道什么用户给文件名corressponds什么目录结构?如果有,那么我们可以进一步考虑把这个问题作为一个ML问题,否则所有的希望都会丢失,我认为它是一个ML问题。 – 2014-09-05 18:54:06
为什么很难把它当成一个无监督的学习问题是因为你正在期待(或有)对用户向你抛出的每个文件名的100%正确响应。因此,对于每个数据点(文件名),您都有一个明确的标签(目录结构) – 2014-09-05 18:55:31