tf-idf

2热度

1回答

我试图找出适合Sklearn（Python）的不同概率模型（如潜在Dirichlet分配，非负矩阵分解等）的最佳方法。查看sklearn文档中的示例，我想知道为什么LDA模型适合TF阵列，而NMF模型适合TF-IDF阵列。这种选择有明确的理由吗？这里是例子：http://scikit-learn.org/stable/auto_examples/applications/topics_extr

0热度

2回答

tf-idf的实现

我正在为2个字符串进行抄袭检测，为此我使用“Levenshtein距离算法”查找抄袭百分比和“tf idf”来查找关键字。但是现在我遇到了突出显示文本类似文本的问题，我正在考虑使用关键字作为种子来形成簇并突出显示该簇，但似乎很多工作。任何人都可以指导我如何去做，或者任何其他方式。请帮助我完成我的大学项目。

2热度

1回答

Pyspark - 总和多个稀疏向量（CountVectorizer输出）

我有一个数据集，其中包含约30k个独特文档，因为它们中包含特定关键字，所以被标记。数据集中的一些关键字段是文档标题，文件大小，关键字和摘录（围绕关键字50个字）。这些〜30k独特文档中的每一个文档都有多个关键字，每个文档在每个关键字的数据集中都有一行（因此，每个文档都有多行）。这是在把原始数据的重点领域可能是什么样子的样本： Raw Data Example 我的目标是建立一个模型，对于某些出现次

0热度

2回答

如何检索和排列tf idf值相同的文档？

让我们假设有2个包含相同术语频率（TF）的文档，其逆文档频率（IDF）值也相同。例如： - Document1:- tf-idf=0.12 Document2:- tf-idf=0.12 那么，如何检索和使用相同的tf-idf值排列这些文件？访问此链接，这取决于你想在你的应用程序要实现什么更多信息http://www.tfidf.com/

0热度

1回答

在tf-idf中处理不兼容的矩阵形状

我试图匹配两个不同数据帧df1和df2的公司名称。我试图在两列上实现tf-idf和余弦相似性 - df1中的company1和df2中的company2。 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity v = T

0热度

1回答

如何正确使用scikit-learn进行文本聚类

对于kmeans聚类，我使用TfidfVectorizer时总是出错。有3种情况：我用分词器参数TfidfVectorizer定制标记化进程对我的数据集。这里是我的代码： ` vectorizer = TfidfVectorizer(stop_words=stops,tokenizer=tokenize) X = vectorizer.fit_transform(titles) ` 但是

3热度

1回答

pyspark：稀疏向量到scipy稀疏矩阵

我有一列短句子和一个分类变量列的spark数据框。我想对分类变量上的句子one-hot-encoding执行tf-idf，然后将其输出到驱动程序中的稀疏矩阵（一旦它的尺寸更小）（对于scikit-learn模型）。什么是以稀疏形式从火花中获取数据的最佳方式？似乎在稀疏向量上只有一个toArray()方法，它输出numpy数组。但是，文档确实说scipy稀疏数组can be used in the

1热度

1回答

余弦相似度使用Apache火花

我试图计算的TFIDF余弦相似矩阵，使用Apache的火花。这里是我的代码： def cosSim(input: RDD[Seq[String]]) = { val hashingTF = new HashingTF() val tf = hashingTF.transform(input) tf.cache() val idf = new IDF().f

0热度

1回答

TfidfVectorizer和SelectPercentile返回什么？

我正在使用scikit-learn进行问题分类。我有这样的代码： print(features[0], '\n') vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english') features = vectorizer.fit_transform(features)

2热度

1回答

如何通过TF/IDF得分获得文档中的单词列表

我有一个ElasticSearch索引。鉴于索引中的文档ID，我希望通过TF-IDF分数获得文档中的单词列表。有可能编写一个ES查询来获取列表吗？在此先感谢。