tf-idf

    2热度

    1回答

    我试图找出适合Sklearn(Python)的不同概率模型(如潜在Dirichlet分配,非负矩阵分解等)的最佳方法。 查看sklearn文档中的示例,我想知道为什么LDA模型适合TF阵列,而NMF模型适合TF-IDF阵列。这种选择有明确的理由吗? 这里是例子:http://scikit-learn.org/stable/auto_examples/applications/topics_extr

    0热度

    2回答

    我正在为2个字符串进行抄袭检测,为此我使用“Levenshtein距离算法”查找抄袭百分比和“tf idf”来查找关键字。但是现在我遇到了突出显示文本类似文本的问题,我正在考虑使用关键字作为种子来形成簇并突出显示该簇,但似乎很多工作。任何人都可以指导我如何去做,或者任何其他方式。请帮助我完成我的大学项目。

    2热度

    1回答

    我有一个数据集,其中包含约30k个独特文档,因为它们中包含特定关键字,所以被标记。数据集中的一些关键字段是文档标题,文件大小,关键字和摘录(围绕关键字50个字)。这些〜30k独特文档中的每一个文档都有多个关键字,每个文档在每个关键字的数据集中都有一行(因此,每个文档都有多行)。这是在把原始数据的重点领域可能是什么样子的样本: Raw Data Example 我的目标是建立一个模型,对于某些出现次

    0热度

    2回答

    让我们假设有2个包含相同术语频率(TF)的文档,其逆文档频率(IDF)值也相同。 例如: - Document1:- tf-idf=0.12 Document2:- tf-idf=0.12 那么,如何检索和使用相同的tf-idf值排列这些文件? 访问此链接,这取决于你想在你的应用程序要实现什么更多信息http://www.tfidf.com/

    0热度

    1回答

    我试图匹配两个不同数据帧df1和df2的公司名称。我试图在两列上实现tf-idf和余弦相似性 - df1中的company1和df2中的company2。 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity v = T

    0热度

    1回答

    对于kmeans聚类,我使用TfidfVectorizer时总是出错。 有3种情况: 我用分词器参数TfidfVectorizer定制标记化进程对我的数据集。这里是我的代码: ` vectorizer = TfidfVectorizer(stop_words=stops,tokenizer=tokenize) X = vectorizer.fit_transform(titles) ` 但是

    3热度

    1回答

    我有一列短句子和一个分类变量列的spark数据框。我想对分类变量上的句子one-hot-encoding执行tf-idf,然后将其输出到驱动程序中的稀疏矩阵(一旦它的尺寸更小)(对于scikit-learn模型)。 什么是以稀疏形式从火花中获取数据的最佳方式?似乎在稀疏向量上只有一个toArray()方法,它输出numpy数组。但是,文档确实说scipy稀疏数组can be used in the

    1热度

    1回答

    我试图计算的TFIDF余弦相似矩阵,使用Apache的火花。 这里是我的代码: def cosSim(input: RDD[Seq[String]]) = { val hashingTF = new HashingTF() val tf = hashingTF.transform(input) tf.cache() val idf = new IDF().f

    0热度

    1回答

    我正在使用scikit-learn进行问题分类。我有这样的代码: print(features[0], '\n') vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english') features = vectorizer.fit_transform(features)

    2热度

    1回答

    我有一个ElasticSearch索引。鉴于索引中的文档ID,我希望通过TF-IDF分数获得文档中的单词列表。有可能编写一个ES查询来获取列表吗? 在此先感谢。