如何从Pyspark中的火花数据框创建边列表？

html5 • 2022年12月5日 pm9:26 • 问答

我graphframes在 pyspark 中使用某种图形类型的分析，想知道从顶点数据框创建边列表数据框的最佳方法是什么。

例如，下面是我的顶点数据框。我有一个 ID 列表，它们属于不同的组。

+---+-----+
|id |group|
+---+-----+
|a  |1    |
|b  |2    |
|c  |1    |
|d  |2    |
|e  |3    |
|a  |3    |
|f  |1    |
+---+-----+

我的目标是创建一个边缘列表数据框来指示出现在公共组中的 id。请注意，1 个 id 可能出现在多个组中（例如，上面的 id a 在组 1 和 3 中）。以下是我想获得的边缘列表数据框：

+---+-----+-----+
|src|dst  |group|
+---+-----+-----+
|a  |c    |1    |
|a  |f    |1    |
|c  |f    |1    |
|b  |d    |2    |
|a  |e    |3    |
+---+-----+-----+

提前致谢！

回答

编辑 1

不确定这是否是更好的解决方法，但我做了一个解决方法：

import pyspark.sql.functions as f

df = df.withColumn('match', f.collect_set('id').over(Window.partitionBy('group')))

df = df.select(f.col('id').alias('src'),
               f.explode('match').alias('dst'),
               f.col('group'))

df = df.withColumn('duplicate_edges', f.array_sort(f.array('src', 'dst')))
df = (df
      .where(f.col('src') != f.col('dst'))
      .drop_duplicates(subset=['duplicate_edges'])
      .drop('duplicate_edges'))

df.sort('group', 'src', 'dst').show()

输出

+---+---+-----+
|src|dst|group|
+---+---+-----+
|  a|  c|    1|
|  a|  f|    1|
|  c|  f|    1|
|  b|  d|    2|
|  e|  a|    3|
+---+---+-----+

+---+---+-----+
|src|dst|group|
+---+---+-----+
|  a|  c|    1|
|  a|  f|    1|
|  c|  f|    1|
|  b|  d|    2|
|  e|  a|    3|
+---+---+-----+

原答案

尝试这个：

输出：

+-----+---+---+
|group|src|dst|
+-----+---+---+
|    1|  a|  c|
|    3|  e|  a|
|    2|  b|  d|
+-----+---+---+

What @Kafels proposes is absolutely right. However, do not forget to include the following at the start of your code: `import pyspark.sql.functions as f`

以上是如何从Pyspark中的火花数据框创建边列表？的全部内容。

THE END

二维码

一百万次迭代后JavaAtomicInteger不等于一百万（包括最小示例）

< <上一篇

如何将特征绑定到非泛型类型？

下一篇>>

搜索内容

如何从Pyspark中的火花数据框创建边列表？

回答

编辑 1

原答案

目录

目录

推荐文章

最新文章