1
我有两个DataFrame,每个DataFrame都保存在实木复合地板文件中。我需要通过唯一的增量“id”列来连接这两个DF。 我可以在ID列创建索引,以便他们可以更快地加入?这里是代码我可以索引实木复合地板文件中的一列,以便使用Spark更快地加入它。
// First DF which contain a few thousands items
val dfExamples = sqlContext.parquetFile("file:///c:/temp/docVectors.parquet")
// Second DF which contains 10 million items
val dfDocVectors = sqlContext.parquetFile(docVectorsParquet) // DataFrame of (id, vector)
dfExamples.join(dfDocVectors, dfExamples("id") === dfDocVectors("id")).select(dfDocVectors("id"),
dfDocVectors("vector"), dfExamples("cat"))
我需要多次执行此类连接。为了加快连接,我可以创建索引 实木复合地板文件中的“id”列,就像我可以对数据库表做什么?