首页
发现
标签
搜索
APP下载
注册
登录
首页
发现
榜单
标签
收录
APP下载
注册
登录
Spark 编程指南简体中文版
文档评分:
81.0 (
0 个有效评分
)
文档语言:
中文
章节数量:
0
阅读人次:
22034
收藏数量:
0
整理分享:
管理员
阅读
收藏
下载
分享
阅读
收藏
下载
分享
文档标签
数据处理
分校
不同于
算法
大规模
框架
实验室
文档概述
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
文档
目录
文档
评论 (
0
)
Summary
快速上手
Introduction
独立应用程序
Spark Shell
编程指南
开始翻滚吧!
引入 Spark
初始化 Spark
Spark RDDs
外部数据集
并行集合
RDD 操作
使用键值对
传递函数到 Spark
Actions
Transformations
RDD持久化
共享变量
从这里开始
Spark Streaming
基本概念
一个快速的例子
离散流
初始化StreamingContext
关联
输入DStreams
DStream中的转换
缓存或持久化
DStream的输出操作
部署应用程序
Checkpointing
监控应用程序
配置Kinesis
flume集成指南
kafka集成指南
自定义receiver指南
减少批数据的执行时间
性能调优
内存调优
设置正确的批容量
容错语义
数据源
开始
Spark SQL
RDDs
JSON数据集
parquet文件
Hive表
编写语言集成(Language-Integrated)的相关查询
其它SQL接口
调度(Scheduling)
Spark SQL数据类型
GraphX编程指南
与Apache Hive的兼容性
属性图
Pregel API
图操作符
图构造者
图算法
顶点和边RDDs
例子
独立运行Spark
部署
Spark配置
在yarn上运行Spark
RDD 持久化
相关书籍
JFinal 3.4 中文文档(JFinal 3.4教程手册)
Koa中文文档
Flight框架中文文档
Beego开发手册
下一代Web框架Koajs
Loopback 中文文档
Lumen 5.0 中文文档
Tornado中文文档
MyBatis 3.4 参考文档中文版
算法珠玑(Java版)
算法珠玑(C++版)
SpeedPHP手册教程
×
分享,让知识传承更久远
×
文档下载
请下载您需要的格式的文档,随时随地,享受汲取知识的乐趣!
PDF
文档
EPUB
文档
MOBI
文档