spark-graphx

0热度

1回答

我在Spark（v2.1.1）中有一个包含分层数据的3列（如下所示）的数据集。我的目标的目标是增量编号分配给基础上，父子层次的每一行。从图形上可以说，分层数据是一个树的集合。根据下表，我已经有基于'Global_ID'分组的行。现在我想以的增量顺序生成'Value'列，但是基于 'Parent'和'Child'列的数据层次结构。表格表示（数值是所需的输出）： +-----------+--

0热度

1回答

Scala-Spark：将数据帧转换为RDD [Edge]

0热度

1回答

有效计算pyspark中的连接组件

我正在尝试在城市中找到朋友的连接组件。我的数据是具有城市属性的边缘列表。城市| SRC | DEST 火箭的凯尔 - >尼休斯敦班尼 - >查尔斯休斯顿查尔斯 - >丹尼奥马哈卡罗尔 - >布赖恩等我知道pyspark的GraphX库的connectedComponents函数将遍历图的所有边以找到连接的组件，并且我想避免这一点。我会怎么做？编辑：我想我可以做这样的事情，从数据帧

1热度

1回答

如何检查Spark Graphx图形中是否存在边缘

我有一个Spark Graphx图形，我想检查两个顶点之间是否存在边。在Spark Graphx中执行此操作的首选方法是什么？更具体地说，我想计算一个列表中所有顶点之间的所有边到另一个列表中的所有顶点。我尝试这样做： graph.edges.filter { case Edge(src, dst, prop) => ids1.contains(src)&&ids2.contains(dst)

0热度

1回答

Scala - Spark：从特定节点返回顶点属性

我有一个图形，我想计算最大度数。特别是具有最大程度的顶点我想知道所有属性。这是代码片段： def max(a: (VertexId, Int), b: (VertexId, Int)): (VertexId, Int) = { if (a._2 > b._2) a else b } val maxDegrees : (VertexId, Int) = graphX.degrees

2热度

1回答

Scala - Spark GraphX：运行Pregel运算符的调试代码

我想用我的定制逻辑对我的graphX网络上的Pregel运算符执行vprog，sendMsg和mergeMsg，但结果是错误的。那么，我该如何调试呢？我不想发布代码，但只是知道如何进行调试，也许从您的提示中学习。

0热度

1回答

在Spark中使用Windows函数的每周聚合

我有从2017年1月1日开始到2017年1月7日的数据，这是一周需要的每周聚合。我在下面的方式使用窗函数 val df_v_3 = df_v_2.groupBy(window(col("DateTime"), "7 day")) .agg(sum("Value") as "aggregate_sum") .select("window.start", "window.end

1热度

1回答

斯卡拉写图中的每个节点的邻接表到一个文本文件

我试图扭转向图以及每个顶点的邻接表写入一个文本文件中的格式 NodeId \t NeighbourId1,NeighbourId2,...,NeighbourIdn 所以到目前为止，我只尝试了打印我的输出是如下： (4,[[email protected]) (0,[[email protected]) (1,[[email protected]) (3,[[email protecte

0热度

1回答

为什么使用Spark GraphX的sbt update会导致“Cross-version suffixes冲突”？

这是我为SBT与斯卡拉火花上的IntelliJ version := "0.1" scalaVersion := "2.11.11" // https://mvnrepository.com/artifact/org.apache.spark/spark-graphx_2.10 libraryDependencies += "org.apache.spark" % "spark-grap

1热度

1回答

如何在整数类型的Spark中生成一个GUID ID列

我知道我可以做UUID.randomUUID.toString来为我的Dataset中的每一行附加一个ID，但是我需要这个ID是一个Long，因为我想使用GraphX。我如何在Spark中做到这一点？我知道Spark有monotonically_increasing_id()，但那仅适用于DataFrame API - 数据集的情况如何？