spark-graphx

    0热度

    1回答

    我在Spark(v2.1.1)中有一个包含分层数据的3列(如下所示)的数据集。 我的目标的目标是增量编号分配给基础上,父子层次的每一行。从图形上可以说,分层数据是一个树的集合。 根据下表,我已经有基于'Global_ID'分组的行。现在我想以 的增量顺序生成'Value'列,但是基于 'Parent'和'Child'列的数据层次结构。 表格表示(数值是所需的输出): +-----------+--

    0热度

    1回答

    我有一个数据框表示图的边;这是模式: root |-- src: string (nullable = true) |-- dst: string (nullable = true) |-- relationship: struct (nullable = false) | |-- business_id: string (nullable = true)

    0热度

    1回答

    我正在尝试在城市中找到朋友的连接组件。我的数据是具有城市属性的边缘列表。 城市| SRC | DEST 火箭的凯尔 - >尼 休斯敦班尼 - >查尔斯 休斯顿查尔斯 - >丹尼 奥马哈卡罗尔 - >布赖恩 等 我知道pyspark的GraphX库的connectedComponents函数将遍历图的所有边以找到连接的组件,并且我想避免这一点。我会怎么做? 编辑: 我想我可以做这样的事情,从数据帧

    1热度

    1回答

    我有一个Spark Graphx图形,我想检查两个顶点之间是否存在边。 在Spark Graphx中执行此操作的首选方法是什么? 更具体地说,我想计算一个列表中所有顶点之间的所有边到另一个列表中的所有顶点。 我尝试这样做: graph.edges.filter { case Edge(src, dst, prop) => ids1.contains(src)&&ids2.contains(dst)

    0热度

    1回答

    我有一个图形,我想计算最大度数。特别是具有最大程度的顶点我想知道所有属性。 这是代码片段: def max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = { if (a._2 > b._2) a else b } val maxDegrees : (VertexId, Int) = graphX.degrees

    2热度

    1回答

    我想用我的定制逻辑对我的graphX网络上的Pregel运算符执行vprog,sendMsg和mergeMsg,但结果是错误的。那么,我该如何调试呢? 我不想发布代码,但只是知道如何进行调试,也许从您的提示中学习。

    0热度

    1回答

    我有从2017年1月1日开始到2017年1月7日的数据,这是一周需要的每周聚合。我在下面的方式使用窗函数 val df_v_3 = df_v_2.groupBy(window(col("DateTime"), "7 day")) .agg(sum("Value") as "aggregate_sum") .select("window.start", "window.end

    1热度

    1回答

    我试图扭转向图以及每个顶点的邻接表写入一个文本文件中的格式 NodeId \t NeighbourId1,NeighbourId2,...,NeighbourIdn 所以到目前为止,我只尝试了打印我的输出是如下: (4,[[email protected]) (0,[[email protected]) (1,[[email protected]) (3,[[email protecte

    0热度

    1回答

    这是我为SBT与斯卡拉火花上的IntelliJ version := "0.1" scalaVersion := "2.11.11" // https://mvnrepository.com/artifact/org.apache.spark/spark-graphx_2.10 libraryDependencies += "org.apache.spark" % "spark-grap

    1热度

    1回答

    我知道我可以做UUID.randomUUID.toString来为我的Dataset中的每一行附加一个ID,但是我需要这个ID是一个Long,因为我想使用GraphX。我如何在Spark中做到这一点?我知道Spark有monotonically_increasing_id(),但那仅适用于DataFrame API - 数据集的情况如何?