我要分类/分类/集群/组在一起的一组几千个网站。我们可以训练数据,因此我们可以进行监督学习,但这不是我们收集的数据,也不是我们坚持使用它的数据 - 所以我们也在考虑无监督学习。
我可以在机器学习算法中使用哪些功能来处理多语言数据?请注意,其中一些语言可能未在自然语言处理领域处理过。
如果我要使用无监督的学习算法,我应该按照语言对数据进行分区并对每种语言进行不同的处理。不同的语言可能有不同的相关类别(或不同,取决于你的心理语言学理论倾向),这可能会影响划分决定。
我正在考虑使用决策树,或者支持向量机(SVM)来允许更多的功能(从我的理解)。 This post建议使用随机森林而不是SVM。有什么想法吗?
实用的方法是值得欢迎的! (理论值了,但是那些可能会被保存供以后的乐趣。)
一些背景
我们正在努力的数千个网站语料库在3到5种语言进行分类(可能高达10 ,但我们不确定)。
我们有数百个已分类网站形式的培训数据。但是,我们可能会选择使用该数据集 - 如果其他类别更有意义,我们可以不使用我们拥有的培训数据,因为它不是我们首先收集的数据。我们正处于从网站上抓取数据/文本的最后阶段。
现在我们必须决定上述问题。我已经与布朗语料库和Brill tagger做了一些工作,但由于多语言问题,这不起作用。
我们打算使用Orange机器学习包。
那么,这是监督或无人监督? – rmalouf 2011-03-23 21:48:10
我知道你的意思是_semantic_ classification/clustering,即按意义分组,而不是其他一些信息,如链接数量,情绪,提及公司名称等。 – ffriend 2011-03-24 17:12:51
@rmalouf:问题已澄清! @ffriend:我不确定我是否会将它描述为_semantic_,因为这可能会使我们陷入相切的理论和技术领域......但是肯定! (再一次,这个词非常宽泛。)我们绝对不会试图去查看原始链接数量或具体名称数量等事情。 – arturomp 2011-03-24 18:09:49