关于 scala：Spark 是否并行执行 UnionAll？

嘿哈 • 2022年8月26日 pm7:43 • 问答

Does Spark do UnionAll in parallel?

我得到了 10 个具有相同架构的 DataFrame，我想将它们组合成一个 DataFrame。每个 DataFrame 都是使用 sqlContext.sql("select ... from ...").cahce 构造的，这意味着从技术上讲，直到使用它们时才真正计算出 DataFrame。

所以，如果我运行：

1	val df_final = df1.unionAll(df2).unionAll(df3).unionAll(df4) ...

Spark 会并行计算所有这些 DataFrame 还是一一计算(由于点运算符)？

而且，当我们在这里时 - 有没有比我上面列出的更优雅的方法来在多个 DataFrame 上执行 unionAll？

相关讨论

关于最后一部分，请参阅 stackoverflow.com/a/37612978/1560062。如果它发生"并行"？这取决于您所说的并行以及可用资源和数据的含义。
@ zero323 假设它有足够的资源来处理它，它是否异步且非阻塞地发生？
我认为丹尼尔几乎回答了这个问题:)

unionAll 是懒惰的。您问题中的示例行不会触发任何同步或异步计算。

总的来说，Spark 是一个分布式计算系统。每个操作本身都由一堆并行处理的任务组成。所以一般来说你不必担心两个操作是否可以并行运行。无论如何，集群资源都会得到很好的利用。

以上是关于 scala：Spark 是否并行执行 UnionAll？的全部内容。

THE END

二维码

关于 scala:shark/spark 在查询表时抛出 NPE

关于scala：Spark Row to JSON

下一篇>>