网站首页 > 技术教程 正文
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:
spark
首先, Spark 非常好用。由于高级 API 剥离了对集群本身的关注,你可以专注于你所要做的计算本身, 只需在自己的笔记本电脑上就可以开发 Spark 应用。
其次, Spark 很快,支持交互式使用和复杂算法。
最后, Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。 这三大优点也使得 Spark 可以作为学习大数据的一个很好的起点。
Spark运行特点:
每个Application获取专属的executor进程,该进程在Application期间一直驻留,并以多线程方式运行Task。这种Application隔离机制是有优势的,无论是从调度角度看(每个Driver调度他自己的任务),还是从运行角度看(来自不同Application的Task运行在不同JVM中),当然这样意味着Spark Application不能跨应用程序共享数据,除非将数据写入外部存储系统
Spark与资源管理器无关,只要能够获取executor进程,并能保持相互通信就可以了
提交SparkContext的Client应该靠近Worker节点(运行Executor的节点),最好是在同一个Rack里,因为Spark Application运行过程中SparkContext和Executor之间有大量的信息交换
Task采用了数据本地性和推测执行的优化机制。
最后要感谢这个优秀的平台,可以让我们相互交流,如果想进一步学习交流,可以加群460570824,希望大家可以一起学习进步!
猜你喜欢
- 2024-11-10 Spark很全的知识点总结(spark很全的知识点总结是什么)
- 2024-11-10 大数据Hadoop之——计算引擎Spark
- 2024-11-10 大佬用10小时就把Spark讲完了,附6大技术文档
- 2024-11-10 SPARK官方教程系列快速入门(spark基础入门)
- 2024-11-10 腾讯大数据专家首次分享这份Spark实战指南(PDF)
- 2024-11-10 30分钟理解Spark的基本原理(spark的工作原理和作用)
- 2024-11-10 深度预警:Spark运行原理(spark的基本运行流程)
- 2024-11-10 Spark整合Ray思路漫谈(spark infrastructure)
- 2024-11-10 十年大数据专家,手把手带你玩转大数据,Spark技术栈的深度解析
- 2024-11-10 日志服务(SLS)集成 Spark 流计算实战
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- 下划线是什么 (87)
- 精美网站 (58)
- qq登录界面 (90)
- nginx 命令 (82)
- nginx .http (73)
- nginx lua (70)
- nginx 重定向 (68)
- Nginx超时 (65)
- nginx 监控 (57)
- odbc (59)
- rar密码破解工具 (62)
- annotation (71)
- 红黑树 (57)
- 智力题 (62)
- php空间申请 (61)
- 按键精灵 注册码 (69)
- 软件测试报告 (59)
- ntcreatefile (64)
- 闪动文字 (56)
- guid (66)
- abap (63)
- mpeg 2 (65)
- column (63)
- dreamweaver教程 (57)
- excel行列转换 (56)
本文暂时没有评论,来添加一个吧(●'◡'●)