latent-semantic-indexing

    1热度

    1回答

    我寻求最有效和最简单的方法来将800k +学术文章分类为与定义的概念空间相关的(1)或不相关的(0)(这里:learning as it relates to work)。 数据是:标题&抽象(平均= 1300个字符),可以使用 任何方法或甚至组合,包括监督的机器学习和/或通过建立产生一些阈值列入特性,其中其他。 方法可以利用key terms that describe the conceptu

    0热度

    1回答

    所以我试图从分布式LSI的gensim运行演示(你可以找到它here)然而每当我运行代码,我得到错误 AttributeError: module 'Pyro4' has no attribute 'expose' 我已经在这里检查了计算器类似的问题,他们通常是通过图书馆的误操作造成的。 但是我没有直接使用Pyro4,而是使用由gensim引入的分布式LSI。因此,有没有犯错的余地就在我身边(或因

    1热度

    2回答

    问题:我如何计算和码字的各主题中的频率是多少? 我的目标是从每个主题创建“词云”。 附注:>我有wordcloud没有问题。 从代码, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,5,63,100001,765) nstart <- 5

    2热度

    1回答

    我试图找出适合Sklearn(Python)的不同概率模型(如潜在Dirichlet分配,非负矩阵分解等)的最佳方法。 查看sklearn文档中的示例,我想知道为什么LDA模型适合TF阵列,而NMF模型适合TF-IDF阵列。这种选择有明确的理由吗? 这里是例子:http://scikit-learn.org/stable/auto_examples/applications/topics_extr

    2热度

    1回答

    我正在学习奇异值分解的过程中,为了什么目的,我可以使用这个概念和我正在阅读的书中提到SVD用于潜在语义索引。我读了几篇关于LSI的文章,似乎LSI主要用于搜索引擎和类似的应用。我想使用LSI进行我正在研究的一个小型数据分析项目,我不确定它是否对我的应用程序有意义。这是我正在与之合作。 我有一个约20000个游戏列表,其中2个属性列表是游戏类型和游戏发布平台。我想用LSI获取关于平台和流派属性的一些

    0热度

    1回答

    为了利用潜在语义调整方法从gensim,我要开始与小“的Classique”的例子,如: import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm') l

    0热度

    1回答

    我正尝试在mahout中运行SVD作业。我有一个矩阵(说A)的大小为372053 x 21338(文件x的术语)创建(21338没有唯一的单词说N,372053文件说M)。所以我的矩阵A的大小(M * N)。我用mahout运行svd,并且得到了清晰的特征向量(我给出了预期的排名,如200表示R)。现在我有一个由尺寸R * N创建的特征向量矩阵。 陈述的SVD方程 A = U * S * V '(

    1热度

    1回答

    我一直在使用LsiModel在gensim建模话题从10000个邮件语料库。我能够获得每个主题的单词和单词分数,并将它们存储在一个文件中。我一直在使用print_topics()和show_topics()尝试,但都仅返回单词,这些单词相关的&得分。但是我还需要它输出到日志文件的主题分数,我希望这些值在一个变量中。像下面这个例子日志输出: 2010-11-03 16:08:27,602 : INF

    0热度

    1回答

    我想聚集一些文本文档以找到具有相同概念的文档。我已经使用潜在语义分析(LSA)完成了语义相似性,但我混淆了我应该为我的目的选择哪种聚类方法。 谢谢

    0热度

    1回答

    我试图在R中使用文本数据进行逻辑回归。我已经构建了一个文档矩阵和相应的潜在语义空间。根据我的理解,LSA用于从“术语”中导出“概念”,这可能有助于降低维度。这里是我的代码: tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighting=myweight)) tdm = removeSparseTer