apache-spark-ml

0热度

1回答

PySpark：Spark ML MulitLayerPerceptron失败，但其他分类器正常工作

嗨，我正在使用Spark ML来训练模型。训练数据集有130列和1000万行。现在的问题是，每当我运行多层感知器它显示了以下错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 43 in stage 1882.0 failed 4 times, most recent failure: Lost t

0热度

1回答

如何在Spark中使用矩阵而不是单独的“购买”来训练ALS模型？

我有一个已经是稀疏矩阵的数据帧。我想用该数据框训练ALS模型，而不创建新的用户/项目数据框。这可能吗？

3热度

1回答

LDA交叉验证评估器

我希望将交叉验证应用于LDA算法以确定主题数量（K）。我的疑问是关于评估者，因为我希望使用对数似然。创建交叉验证时，我在.setEvaluator（????）上设置了什么？ // Define a simple LDA val lda = new LDA() .setMaxIter(10) .setFeaturesCol("features") // We use a

1热度

2回答

通过循环添加控件 - 有可能吗？

是否可以通过循环将控件添加到控件？困难在于名字：它是在每个循环一样，所以我得到的只有一个名为hu，而不是10一个控制如何修改代码即可获得10个Border S' for (int i = 0; i < 10; i++) { Border hu = new Border(); hu.Width = 10; hu.Height = 10; hu.Margin

1热度

1回答

使用PySpark 1.6为LDA培训准备数据

我有我正在读入火花数据框的文档的语料库。我有tokeniked和矢量化的文本，现在我想喂养向量化的数据到mllib LDA模型。 LDA API文档似乎要求数据为： rdd - 文档的RDD，它们是文档ID和词（词）计数向量的元组。术语计数向量是具有固定大小词汇表（其中词汇大小是向量的长度）的“词袋”。文件ID必须是唯一的且> = 0。如何从我的数据框中获得合适的rdd？ from pyspa

1热度

1回答

使用Spark LDA可视化主题

我正在使用pySpark ML LDA库来适应sklearn的20个新闻组数据集上的主题模型。我正在对训练语料库进行标准化标记化，停止词移除和tf-idf转换。最后，我可以得到的主题和打印出来的字指数及其权重： topics = model.describeTopics() topics.show() +-----+--------------------+------------------

1热度

1回答

如何更改pyspark中的列元数据？

如何更新PySpark中的列元数据？我有元数据值对应于分类（字符串）功能的标称编码，我想以自动方式解码它们。除非重新创建模式，否则在pyspark API中编写元数据不是直接可用的。提供完整的模式描述（如描述here），是否可以在PySpark中随时编辑元数据而无需将数据集转换为RDD并将其转换回来？示例清单： # Create DF df.show() # +---+---------

2热度

2回答

拟合一个数据帧到随机森林pyspark

0热度

1回答

适合多种数字列到火花毫升模型PySpark

我工作的星火1.6.2，我有一个DataFrame有102列： f0, f1,....,f101 F0包含索引和F101包含标签，以及其他列是数字特征（浮动）。我想通过这DataFrame培训一个随机森林模型（spark-ml）。所以我用VectorAssembler输出一个特色栏目，以拟合模型 from pyspark.ml.feature import VectorAssembler

0热度

1回答

在Mac OS上模拟Glib夸克

也许你知道CoreFoundation或其他框架中g_quark_from_string（）和g_quark_to_string（）的任何类比吗？