如何配置Spark/Glue以避免在Glue作业成功执行后创建空的$_folder_$

html5 • 2022年11月4日 pm9:37 • 问答

我有一个由 Glue 工作流程触发的简单胶水 etl 作业。它从爬虫表中删除重复数据并将结果写回 S3 存储桶。作业已成功完成。但是，spark 生成“$ folder $”的空文件夹保留在 s3 中。它在层次结构中看起来不太好并会导致混乱。有没有办法在成功完成工作后配置火花或胶水上下文来隐藏/删除这些文件夹？

---------------------S3镜像---------------------

回答

好的，经过几天的测试，我终于找到了解决方案。在粘贴代码之前，让我总结一下我发现的内容......

这些 $folder$ 是通过 Hadoop 创建的。Apache Hadoop 在 S3 存储桶中创建文件夹时会创建这些文件。Source1
它们实际上是作为路径 + / 的目录标记。来源 2
要更改行为，您需要更改 Spark 上下文中的 Hadoop S3 写入配置。阅读这个和这个和这个
在此处和此处阅读有关 S3、S3a 和 S3n 的信息
感谢@stevel在这里的评论

现在的解决方案是在 Spark 上下文 Hadoop 中设置以下配置。

sc = SparkContext()
hadoop_conf = sc._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")

为了避免创建 SUCCESS 文件，您还需要设置以下配置：
hadoop_conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")

确保使用 S3 URI 写入 s3 存储桶。前任：

myDF.write.mode("overwrite").parquet('s3://XXX/YY',partitionBy['DDD'])

以上是如何配置Spark/Glue以避免在Glue作业成功执行后创建空的$_folder_$的全部内容。

THE END

二维码

何时在ASP.NETCore5中处理DbContext实例

< <上一篇

Docker(AppleSilicon/M1Preview)MySQL“在清单列表条目中没有与linux/arm64/v8匹配的清单”

下一篇>>

搜索内容

如何配置Spark/Glue以避免在Glue作业成功执行后创建空的$_folder_$

回答

目录

目录

推荐文章

最新文章