3
我有一列短句子和一个分类变量列的spark数据框。我想对分类变量上的句子one-hot-encoding
执行tf-idf
,然后将其输出到驱动程序中的稀疏矩阵(一旦它的尺寸更小)(对于scikit-learn模型)。pyspark:稀疏向量到scipy稀疏矩阵
什么是以稀疏形式从火花中获取数据的最佳方式?似乎在稀疏向量上只有一个toArray()
方法,它输出numpy
数组。但是,文档确实说scipy稀疏数组can be used in the place of spark sparse arrays.
请记住,tf_idf值实际上是一列稀疏数组。理想情况下,将所有这些特征集成到一个大型稀疏矩阵中将会很好。