有人可以提供一个使用pyspark的例子来说明如何运行自定义的Apache Phoenix SQL查询并将查询的结果存储在RDD或DF中。注意:我正在查找自定义查询,而不是要将整个表读入RDD。在PySpark中运行自定义的Apache Phoenix SQL查询
从凤凰文件,加载整个表我可以用这个:
table = sqlContext.read \
.format("org.apache.phoenix.spark") \
.option("table", "<TABLENAME>") \
.option("zkUrl", "<hostname>:<port>") \
.load()
我想知道什么是使用自定义的SQL
sqlResult = sqlContext.read \
.format("org.apache.phoenix.spark") \
.option("sql", "select * from <TABLENAME> where <CONDITION>") \
.option("zkUrl", "<HOSTNAME>:<PORT>") \
.load()
由于相应的等价物。
这是问题的答案还是问题的一部分? – YOU
两者。它使用JDBC来实现我想要做的事情,但使用Phoenix Spark选项会更好,因此我尝试使用它以及相应的错误消息。 –
问题应该在第一篇文章中编辑,因为这是答案部分。 stackoverflow不像普通的论坛。 – YOU