latent-semantic-indexing

1热度

1回答

我寻求最有效和最简单的方法来将800k +学术文章分类为与定义的概念空间相关的（1）或不相关的（0）（这里：learning as it relates to work）。数据是：标题&抽象（平均= 1300个字符），可以使用任何方法或甚至组合，包括监督的机器学习和/或通过建立产生一些阈值列入特性，其中其他。方法可以利用key terms that describe the conceptu

0热度

1回答

AttributeError模块'Pyro4'在运行gensim时没有属性'expose'分布式LSI

所以我试图从分布式LSI的gensim运行演示（你可以找到它here）然而每当我运行代码，我得到错误 AttributeError: module 'Pyro4' has no attribute 'expose' 我已经在这里检查了计算器类似的问题，他们通常是通过图书馆的误操作造成的。但是我没有直接使用Pyro4，而是使用由gensim引入的分布式LSI。因此，有没有犯错的余地就在我身边（或因

1热度

2回答

主题建模：LDA，词频每个主题和Wordcloud

问题：我如何计算和码字的各主题中的频率是多少？我的目标是从每个主题创建“词云”。附注：>我有wordcloud没有问题。从代码， burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,5,63,100001,765) nstart <- 5

2热度

1回答

scikit-learn - 我应该使用TF还是TF-IDF模型？

我试图找出适合Sklearn（Python）的不同概率模型（如潜在Dirichlet分配，非负矩阵分解等）的最佳方法。查看sklearn文档中的示例，我想知道为什么LDA模型适合TF阵列，而NMF模型适合TF-IDF阵列。这种选择有明确的理由吗？这里是例子：http://scikit-learn.org/stable/auto_examples/applications/topics_extr

2热度

1回答

试图理解潜在语义索引（LSI）

我正在学习奇异值分解的过程中，为了什么目的，我可以使用这个概念和我正在阅读的书中提到SVD用于潜在语义索引。我读了几篇关于LSI的文章，似乎LSI主要用于搜索引擎和类似的应用。我想使用LSI进行我正在研究的一个小型数据分析项目，我不确定它是否对我的应用程序有意义。这是我正在与之合作。我有一个约20000个游戏列表，其中2个属性列表是游戏类型和游戏发布平台。我想用LSI获取关于平台和流派属性的一些

0热度

1回答

潜在语义指数化与gensim

为了利用潜在语义调整方法从gensim，我要开始与小“的Classique”的例子，如： import logging, gensim, bz2 id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm') l

0热度

1回答

mahout中的SVD输出解释

我正尝试在mahout中运行SVD作业。我有一个矩阵（说A）的大小为372053 x 21338（文件x的术语）创建（21338没有唯一的单词说N，372053文件说M）。所以我的矩阵A的大小（M * N）。我用mahout运行svd，并且得到了清晰的特征向量（我给出了预期的排名，如200表示R）。现在我有一个由尺寸R * N创建的特征向量矩阵。陈述的SVD方程 A = U * S * V '（

1热度

1回答

如何获得Gensim LSI模型的主题评分？

我一直在使用LsiModel在gensim建模话题从10000个邮件语料库。我能够获得每个主题的单词和单词分数，并将它们存储在一个文件中。我一直在使用print_topics（）和show_topics（）尝试，但都仅返回单词，这些单词相关的&得分。但是我还需要它输出到日志文件的主题分数，我希望这些值在一个变量中。像下面这个例子日志输出： 2010-11-03 16:08:27,602 : INF

0热度

1回答

为潜在语义分析选择适当的聚类方法

我想聚集一些文本文档以找到具有相同概念的文档。我已经使用潜在语义分析（LSA）完成了语义相似性，但我混淆了我应该为我的目的选择哪种聚类方法。谢谢

0热度

1回答

如何将潜在语义分析的特征作为自变量纳入预测模型

我试图在R中使用文本数据进行逻辑回归。我已经构建了一个文档矩阵和相应的潜在语义空间。根据我的理解，LSA用于从“术语”中导出“概念”，这可能有助于降低维度。这里是我的代码： tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighting=myweight)) tdm = removeSparseTer