tf-idf

    0热度

    1回答

    这在elasticsearch我的样本数据 { "_index": "12_index", "_type": "skill_strings", "_id": "AVKv-kM4axmY3fECZw9T", "_source": { "str": "PHP PHP PHP" } }, { "_index": "12_inde

    0热度

    1回答

    我正在寻找一个Lucene(Java)中的相似性模块,它给出了一个基于权重的评分。我知道这很模糊,最好用一个例子来解释。 Document 1 ----------- Firstname: Francesca Document 2 ----------- Firstname: Francisco 名字字段是使用Doublemetaphone &精制的Soundex语音算法进行分析。

    0热度

    1回答

    我有以下RDD(样品)名/姓: names_rdd.take(3) [u'Daryll Dickenson', u'Dat Naijaboi', u'Duc Dung Lam'] ,我试图来计算tf_idf: from pyspark.mllib.feature import HashingTF,IDF hashingTF = HashingTF() tf_names = hashing

    1热度

    1回答

    在生成TF-IDF模块时,我刚刚面对这种矩阵向量计算。 A % b = C [[1,2], [3,4]] % [1/2, 1/3] = [[1/2, 2/3], [3/2, 4/3]] 这里A是Document x Words一个矩阵,其中A_ij是字i的文件j一个期限,频率计数。并且b矢量是针对每个词预先计算的IDF值,例如如果在7个不同文档中使用词j,则b_j是1/7。 人们如何称之为

    0热度

    1回答

    上午 Terms Docs blue bright sky sun 1 0.7924813 0.0000000 0.2924813 0.0000000 2 0.0000000 0.2924813 0.0000000 0.2924813 3 0.0000000 0.1949875 0.1949875 0.1949875 但是,如果我执行手动计算,结果是不匹配

    2热度

    1回答

    我正在用Spark来创建一个应用程序,它将运行一些主题提取算法。为此,首先我需要进行一些预处理,最后提取文档项矩阵。我可以做到这一点,但对于一个(没有那么多)大量文档(只有2千5MB)来说,这个过程是永无止境的。 所以,调试,香港专业教育学院发现那里的节目还挺stucks,这是在降低操作。我在这部分代码中所做的是计算每个术语在该集合上出现的次数,因此首先我完成了一个“映射”,为每个rdd指定它,然

    0热度

    1回答

    所以我有一个词的语料库我正在运行TFIDF,然后尝试使用Logistic回归和GridSearch进行分类。 但我发现了一个巨大的错误,当我运行GridSearch ..错误是这样的(这是更长的时间,但我只是复制并粘贴一点点): An unexpected error occurred while tokenizing input file /Users/yongcho822/anaconda/l

    -1热度

    1回答

    import numpy as np def computeTF(wordDict, doc): tfDict ={} for word, count in wordDict.items(): if count == 0: tfDict = 0 else: tfDict[word] = 1 + np.log2(count)

    1热度

    1回答

    我是Spark的新手。我试图实现tf-idf。我需要计算每个文档中每个单词出现的次数以及每个文档中的单词总数。 我想减少和可能的另一个操作,但我不知道如何。 这里是我的输入: 对的形式是(documentName , (word, wordCount))前。 ("doc1", ("a", 3)), ("doc1", ("the", 2)), ("doc2", ("a", 5)), ("d

    1热度

    2回答

    我正在使用SciKit学习对大数据集(+ - 34.000文件)执行一些分析。现在我在想。 HashingVectorizer旨在减少内存使用量。是否有可能首先将一堆文件转换为HashingVectorizer对象(使用pickle.dump),然后将所有这些文件一起加载并将它们转换为TfIdf特性?这些功能可以通过HashingVectorizer进行计算,因为存储了计数并且可以推导出文档的数量