网站首页 > 技术教程 正文
前言
Apache Spark是一个开源集群运算框架,相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。
Spark 在存储器内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快上 100 倍,即便是运行程序于硬盘时,Spark 也能快上 10 倍速度。Spark 允许用户将数据加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。
使用 Spark 需要搭配集群管理员和分布式存储系统。Spark 支持独立模式(本地 Spark 集群)、Hadoop YARN 或 Apache Mesos 的集群管理。在分布式存储方面,Spark 可以和 Alluxio, HDFS、 Cassandra 、OpenStack Swift 和 Amazon S3 等接口搭载。 Spark 也支持伪分布式(pseudo-distributed)本地模式,不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下,Spark 仅在一台机器上使用每个 CPU 核心运行程序。
spark特色
Java、Scala、Python 和 R APIs。
可扩展至超过 8000 个结点。
能够在存储器内缓存数据集以进行交互式数据分析。
Scala 或 Python 中的交互式命令行接口可降低横向扩展数据探索的反应时间。
Spark Streaming 对即时数据流的处理具有可扩展性、高吞吐量、可容错性等特点。
Spark SQL 支持结构化和关系式查询处理(SQL)。
MLlib 机器学习算法和 Graphx 图形处理算法的高端库。
Spark从入门到精通的学习路线
spark-core、复习hadoop生态、梳理术语、hadoopRDD 源码分析
spark-core、wordcount案例源码分析、图解
spark-core、集合操作API、pvuv分析、RDD源码分析
spark-core、聚合计算API、combineByKey、分区调优
spark-core、二次排序、分组取TopN、算子综合应用
spark-core、集群框架图解、角色功能介绍、官网学习 、搭建
spark-core、history服务、standaloneHA、资源调度参数
spark-core、基于yarn的集群搭建、配置、资源调度参数、优化jars
spark-core-源码、RpcEnv、standaloneMaster启动分析
spark-core-源码、Worker启动、sparksubmit提交、Driver启动
spark-core-源码、Application注册、Executor资源申请
spark-core-源码、sparkContext、DAGScheduler、stage划分
spark-core-源码、TaskScheduler、Executor运行Task、SparkEnv
spark-core-源码、MemoryManager、BlockManager
spark-core-源码、Dependency、SortShuffleManager
spark-core-源码、SortShuffleWriter、内存缓冲区buffer
spark-core-源码、SortShuffleWriter、内存缓冲区buffer
spark-core-源码、UnsafeShuffleWriter、Tungsten、Unsafe、堆外
spark-core-源码、ShuffleReader、Tracker、Scheduler完整调度
spark-core-源码、RDD持久化、检查点、广播变量、累加器
spark-core-源码、RDD持久化、检查点、广播变量、累加器
spark-sql、大数据中的SQL组成原理
spark-sql、datafram到dataset开发
spark-sql、整合hive的metastore搭建企业级数仓1
spark-sql、整合hive的metastore搭建企业级数仓2
spark-sql、复杂sql、函数、自定义函数、开窗over函数、OLAP
spark-sql-源码、sql解析、dataset到rdd的执行计划
spark-sql-源码、antlr4的sql解析、AST语法树的逻辑到物理转换
spark-sql-源码、逻辑计划、优化器、物理计划、转换RDD
spark-streaming、流式计算之微批计算原理及standalone
spark-streaming、api、ha、检查点、窗口等机制
spark-streaming、整合MQ-kafka开发
spark-streaming、源码分析、流式微批任务的调度原理
spark思维导图
Spark 2.2G学习视频
另外还有SparkPDF技术文档赠送
需要2.2G学习视频和PDF技术文档的小伙伴,就可以转发关注小编,私信小编“文档”来得到获取方式吧~~~
猜你喜欢
- 2024-11-10 Spark很全的知识点总结(spark很全的知识点总结是什么)
- 2024-11-10 大数据Hadoop之——计算引擎Spark
- 2024-11-10 大佬用10小时就把Spark讲完了,附6大技术文档
- 2024-11-10 SPARK官方教程系列快速入门(spark基础入门)
- 2024-11-10 腾讯大数据专家首次分享这份Spark实战指南(PDF)
- 2024-11-10 30分钟理解Spark的基本原理(spark的工作原理和作用)
- 2024-11-10 深度预警:Spark运行原理(spark的基本运行流程)
- 2024-11-10 Spark整合Ray思路漫谈(spark infrastructure)
- 2024-11-10 简单介绍spark(简单介绍自己)
- 2024-11-10 十年大数据专家,手把手带你玩转大数据,Spark技术栈的深度解析
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- 下划线是什么 (87)
- 精美网站 (58)
- qq登录界面 (90)
- nginx 命令 (82)
- nginx .http (73)
- nginx lua (70)
- nginx 重定向 (68)
- Nginx超时 (65)
- nginx 监控 (57)
- odbc (59)
- rar密码破解工具 (62)
- annotation (71)
- 红黑树 (57)
- 智力题 (62)
- php空间申请 (61)
- 按键精灵 注册码 (69)
- 软件测试报告 (59)
- ntcreatefile (64)
- 闪动文字 (56)
- guid (66)
- abap (63)
- mpeg 2 (65)
- column (63)
- dreamweaver教程 (57)
- excel行列转换 (56)
本文暂时没有评论,来添加一个吧(●'◡'●)