我需要从多个不是父目录或子目录的路径读取实木复合地板文件。从Pyspark中的多个目录读取实木复合地板文件
例如,
dir1 ---
|
------- dir1_1
|
------- dir1_2
dir2 ---
|
------- dir2_1
|
------- dir2_2
sqlContext.read.parquet(dir1)
从dir1_1地板读取文件和dir1_2
现在我在读每个目录和合并使用 “unionAll” dataframes。 有没有一种方法来读取dir1_2和dir2_1拼花文件,而不使用unionAll
或有使用unionAll
感谢
当我使用这段代码时,它正在搜索/ home /目录中的目录,你可以发布整个语法吗? – Viv
@N00b当我尝试这段代码时,它给了我一个错误,即加载只需要4个参数,但我有我的路径到24个文件..是否有一个选项可以覆盖此。我正在尝试不执行多个加载和一个联合,这就是为什么我想使用加载将多个文件放入df –