我有一个数据集,其中包含约30k个独特文档,因为它们中包含特定关键字,所以被标记。数据集中的一些关键字段是文档标题,文件大小,关键字和摘录(围绕关键字50个字)。这些〜30k独特文档中的每一个文档都有多个关键字,每个文档在每个关键字的数据集中都有一行(因此,每个文档都有多行)。这是在把原始数据的重点领域可能是什么样子的样本: Raw Data Example 我的目标是建立一个模型,对于某些出现次
我试图匹配两个不同数据帧df1和df2的公司名称。我试图在两列上实现tf-idf和余弦相似性 - df1中的company1和df2中的company2。 from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
v = T
我有一列短句子和一个分类变量列的spark数据框。我想对分类变量上的句子one-hot-encoding执行tf-idf,然后将其输出到驱动程序中的稀疏矩阵(一旦它的尺寸更小)(对于scikit-learn模型)。 什么是以稀疏形式从火花中获取数据的最佳方式?似乎在稀疏向量上只有一个toArray()方法,它输出numpy数组。但是,文档确实说scipy稀疏数组can be used in the
我试图计算的TFIDF余弦相似矩阵,使用Apache的火花。 这里是我的代码: def cosSim(input: RDD[Seq[String]]) = {
val hashingTF = new HashingTF()
val tf = hashingTF.transform(input)
tf.cache()
val idf = new IDF().f