tf-idf

    4热度

    3回答

    受启发this答案,我试图找到训练有素的tf-idf向量化器和新文档之间的余弦相似度,并返回相似的文档。 下面的代码查找第一矢量的余弦相似性,而不是一个新的查询 >>> from sklearn.metrics.pairwise import linear_kernel >>> cosine_similarities = linear_kernel(tfidf[0:1], tfidf).flat

    0热度

    1回答

    我有一个下面的数据帧df,这是我从sframe URI name text 0 <http://dbpedia.org/resource/Digby_M... Digby Morrell digby morrell born 10 october 1979 i... 1 <http://dbpedia.org/resource/Alfred_... Alfred J

    0热度

    1回答

    我正在解决在文章中使用TF-IDF进行关键字提取的问题。 我遵循的管道去如下: 输入文本 记号化到句子来增加词汇量 应用CountVectorizer建立每个句子的计数向量。 应用TfidfTransformer为其分配权重。 但是,我面临的问题是,我收到的每个令牌的分数都与句子有关,我想要的是令牌在上下文中对整篇文章的分数。那么我该如何去实现呢? 例如: 这是我的玩具文字。 “拉希德·西迪基一直

    0热度

    1回答

    假设我有一个关于TF-IDF权重的文档词表矩阵,用于表示某些文档的词袋。例如。在R: library(tm) x <- c("a cat sat on a mat", "cat and dog are friends", "friends are sitting on a mat") corpus <- Corpus(VectorSource(x)) dtm <- DocumentTermM

    0热度

    2回答

    我有一个问题,如何计算相同键的总字典?我有一个字典: {'learning': {'DOC1': 0.14054651081081646, 'DOC2': 0, 'DOC3': 0.4684883693693881}, 'life': {'DOC1': 0.14054651081081646, 'DOC2': 0.2007807297297377

    1热度

    1回答

    我想在“文档”内容是数字标识符(而不是文本)的数据上执行TF-IDF模型。所以我不想散列它们,只需使用数值即可。任何简单的方法来产生org.apache.spark.mllib.linalg.VectorUDT?我必须编写自己的非哈希HashingTF吗? 或者自己计算tfidf更简单吗?

    2热度

    1回答

    我有一个包含产品名称的未标记数据集。例如,棒球衫,夹克衫,活跃的经典拳击手等。 我创建了一个tf-idf矩阵与数据,然后我在矩阵上运行k-means。我绘制平方的内群集总和以发现是5 聚类后我想出文件 # cosine similarity between each document from sklearn.metrics.pairwise import cosine_similarity

    1热度

    1回答

    我试图与俄罗斯停止字 Tfidf = sklearn.feature_extraction.text.TfidfVectorizer(stop_words='russian') Z = Tfidf.fit_transform(X) 适用TfidfVectorizer,我也得到 ValueError: not a built-in stop list: russian 当我用英语停止的话这

    3热度

    1回答

    我使用文档聚类sklearn k均值算法如 http://brandonrose.org/clustering 引导这里有TFIDF矩阵的计算。我已经理解了TFIDF技术背后的概念。 但是,当我在给定的程序的印刷这种矩阵,该矩阵是这样的, (0, 11) 0.238317554822 (0, 34) 0.355850989305 (0, 7) 0.355850989305

    0热度

    2回答

    我正在开发一个基于搜索引擎的应用程序,并且正在研究Lucene java框架,我被默认的lucene提供的评分功能弄糊涂了,比如默认的tf-idf和余弦相似度计分功能是否实现,或者我们必须做别的事吗? public class LuceneTester { String indexDir = "C:\\Users\\hamda\\Documents\\NetBeansProjects\\luc