我寻求最有效和最简单的方法来将800k +学术文章分类为与定义的概念空间相关的(1)或不相关的(0)(这里:learning as it relates to work)。 数据是:标题&抽象(平均= 1300个字符),可以使用 任何方法或甚至组合,包括监督的机器学习和/或通过建立产生一些阈值列入特性,其中其他。 方法可以利用key terms that describe the conceptu
所以我试图从分布式LSI的gensim运行演示(你可以找到它here)然而每当我运行代码,我得到错误 AttributeError: module 'Pyro4' has no attribute 'expose' 我已经在这里检查了计算器类似的问题,他们通常是通过图书馆的误操作造成的。 但是我没有直接使用Pyro4,而是使用由gensim引入的分布式LSI。因此,有没有犯错的余地就在我身边(或因
我正尝试在mahout中运行SVD作业。我有一个矩阵(说A)的大小为372053 x 21338(文件x的术语)创建(21338没有唯一的单词说N,372053文件说M)。所以我的矩阵A的大小(M * N)。我用mahout运行svd,并且得到了清晰的特征向量(我给出了预期的排名,如200表示R)。现在我有一个由尺寸R * N创建的特征向量矩阵。 陈述的SVD方程 A = U * S * V '(