我是新来蜂房和火花,并试图找出一种方法来访问表中的蜂巢来操纵和访问数据。如何做呢?如何通过IntelliJ上的Scala使用Spark连接到Hive?
1
A
回答
1
火花< 2.0
val sc = new SparkContext(conf)
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
val myDataFrame = sqlContext.sql("select * from mydb.mytable")
火花的后续版本,使用SparkSession:
SparkSession现在是星火的新的切入点,它取代了旧 SQLContext和HiveContext。请注意,为保持向后兼容,旧SQLContext和HiveContext保持不变。一个新的目录 接口可从SparkSession访问 - 数据库 上的现有API以及诸如listTables,createExternalTable, 等表访问的dropTempView,cacheTable都在此处移动。 - 从文档
val spark = SparkSession
.builder()
.appName("Spark Hive Example")
.config("spark.sql.warehouse.dir", warehouseLocation)
.enableHiveSupport()
.getOrCreate()
val myDataFrame = spark.sql("select * from mydb.mytable")
0
如果您的蜂巢服务器驻留远程群集上你可以参考拉动数据对像JDBC连接:
import scala.collection.mutable.MutableList
case class TempTable (
column1: String,
column2: String
)
val conn: Connection = DriverManager.getConnection(url, user, password)
val res: ResultSet = conn.createStatement
.executeQuery("SELECT * FROM table_name")
val fetchedRes = MutableList[TempTable]()
while(res.next()) {
var rec = TempTable(res.getString("column1"),
res.getString("column2"))
fetchedRes += rec
}
conn.close()
val resultRDD = sc.parallelize(fetchedRes)
resultRDD.cache()
相关问题
- 1. 如何使用Spark Scala从IntelliJ IDEA连接到Hive虚拟框中
- 2. 使用Spark JobServer spark不使用hive-site.xml上配置的mysql连接
- 3. Spark Hive表连接策略
- 4. 防止Spark HiveContext连接到Hive
- 5. 如何通过Spark Thrift Server将Tableau Desktop连接到Spark SQL 2.0?
- 6. R如何使用RJDBC连接到Hive?
- 7. Apache Spark DataFrames连接失败,使用scala
- 8. 无法通过intellij(SonarLint)连接到Sonarqube
- 9. 无法通过Spark连接到Mongo DB
- 10. 如何通过Ruby连接到Amazon EMR Hive?
- 11. Cassandra到Hive使用Spark
- 12. Scala Spark连接到远程集群
- 13. 通过jdbc客户端远程连接到apche spark hive像松鼠SQL
- 14. 我如何使用IntelliJ IDEA 10.5.2连接到Scala应用程序的数据库
- 15. 如何在Spark中使用Scala连接两个Hbase表格
- 16. 通过SSH隧道连接到通过YARN运行的Spark
- 17. 使用RStudio-sparklyr连接到本地Spark由IntelliJ提供
- 18. Spark scala使用spark-mongo连接器来插入
- 19. Spark Scala - TokenizerExample - Intellij错误
- 20. Intellij安装scala和spark
- 21. 使用Spark和Scala连接到本地postgresql数据库
- 22. spark-java包如何从Scala使用Spark?
- 23. 如何通过scala在框架中连接到cassandra
- 24. 如何配置Hive使用Spark?
- 25. 如何使用spark过滤Hive中的记录
- 26. 使用Spark和Scala将数据插入Hive Table的问题
- 27. 如何将Pentaho 6.0连接到Hadoop-Hive
- 28. 如何通过unix套接字连接到localhost上的mySQL
- 29. Spark上的Hive 2.1.1 - 我应该使用哪个版本的Spark
- 30. 如何使用urllib2通过代理连接到HTTPS(使用Python)
请注意,这种做法是很不理想运行生产工作负载,因为所有数据都需要先通过驱动程序才能发送给工作节点。但是,如果您只是在进行一些开发,可能会有所帮助。 – Havnar
@Havnar作者是新手,正在寻找建议如何访问和操作最可能在本地机器上使用IDE的数据。 – FaigB