• Spark SQL

    Spark SQL

    Spark SQL允许Spark执行用SQL, HiveQL或者Scala表示的关系查询。这个模块的核心是一个新类型的RDD-SchemaRDD。
    SchemaRDDs由@Row:org.apache.spark.sql.catalyst.expressions.Row.type">行对象组成,行对象拥有一个模式(scheme)
    来描述行中每一列的数据类型。SchemaRDD与关系型数据库中的表很相似。可以通过存在的RDD、一个Parquet文件、一个JSON数据库或者对存储在Apache Hive中的数据执行HiveSQL查询中创建。

    本章的所有例子都利用了Spark分布式系统中的样本数据,可以在spark-shell中运行它们。

    • 开始
    • 数据源
    • 性能调优
    • 其它SQL接口
    • 编写语言集成(Language-Integrated)的相关查询
    • Spark SQL数据类型
    • 调度(Scheduling)
    • 与Apache Hive的兼容性