apache-spark-ml

    0热度

    1回答

    嗨,我正在使用Spark ML来训练模型。训练数据集有130列和1000万行。现在的问题是,每当我运行多层感知器它显示了以下错误: org.apache.spark.SparkException: Job aborted due to stage failure: Task 43 in stage 1882.0 failed 4 times, most recent failure: Lost t

    0热度

    1回答

    我有一个已经是稀疏矩阵的数据帧。我想用该数据框训练ALS模型,而不创建新的用户/项目数据框。这可能吗?

    3热度

    1回答

    我希望将交叉验证应用于LDA算法以确定主题数量(K)。 我的疑问是关于评估者,因为我希望使用对数似然。创建交叉验证时,我在.setEvaluator(????)上设置了什么? // Define a simple LDA val lda = new LDA() .setMaxIter(10) .setFeaturesCol("features") // We use a

    1热度

    2回答

    是否可以通过循环将控件添加到控件?困难在于名字:它是在每个循环一样,所以我得到的只有一个名为hu,而不是10一个控制如何修改代码即可获得10个Border S' for (int i = 0; i < 10; i++) { Border hu = new Border(); hu.Width = 10; hu.Height = 10; hu.Margin

    1热度

    1回答

    我有我正在读入火花数据框的文档的语料库。 我有tokeniked和矢量化的文本,现在我想喂养向量化的数据到mllib LDA模型。 LDA API文档似乎要求数据为: rdd - 文档的RDD,它们是文档ID和词(词)计数向量的元组。术语计数向量是具有固定大小词汇表(其中词汇大小是向量的长度)的“词袋”。文件ID必须是唯一的且> = 0。 如何从我的数据框中获得合适的rdd? from pyspa

    1热度

    1回答

    我正在使用pySpark ML LDA库来适应sklearn的20个新闻组数据集上的主题模型。我正在对训练语料库进行标准化标记化,停止词移除和tf-idf转换。最后,我可以得到的主题和打印出来的字指数及其权重: topics = model.describeTopics() topics.show() +-----+--------------------+------------------

    1热度

    1回答

    如何更新PySpark中的列元数据? 我有元数据值对应于分类(字符串)功能的标称编码,我想以自动方式解码它们。除非重新创建模式,否则在pyspark API中编写元数据不是直接可用的。提供完整的模式描述(如描述here),是否可以在PySpark中随时编辑元数据而无需将数据集转换为RDD并将其转换回来? 示例清单: # Create DF df.show() # +---+---------

    2热度

    2回答

    我有一个DataFrame,看起来像这样: +--------------------+------------------+ | features| labels | +--------------------+------------------+ |[-0.38475, 0.568...]| label1 | |[0.645734, 0.699...]| label2

    0热度

    1回答

    我工作的星火1.6.2,我有一个DataFrame有102列: f0, f1,....,f101 F0包含索引和F101包含标签,以及其他列是数字特征(浮动)。 我想通过这DataFrame培训一个随机森林模型(spark-ml)。 所以我用VectorAssembler输出一个特色栏目,以拟合模型 from pyspark.ml.feature import VectorAssembler

    0热度

    1回答

    也许你知道CoreFoundation或其他框架中g_quark_from_string()和g_quark_to_string()的任何类比吗?