网站首页 > 技术教程 正文
说起大数据的工具,最广为人知的就是Hadoop和Spark了,Hadoop在上一篇文章中已经有所介绍,这期小编就为大家介绍后起之秀Spark。
Spark是一个运算速度快如闪电的Apache项目,研发人员声称它是“一种用于数据大规模处理的快速通用引擎”, Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点。
Spark核心概念是Resilient Distributed Dataset (RDD)弹性分布数据集,RDD实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDDRDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的,可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。RDD
以RDD为核心Spark构架图:
Spark在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。同时Spark拥有非常出色的容错和调度机制,确保系统的稳定运行,而在易用性方面,更是大有名气,它随带易于使用的API,支持Scala(原生语言)、Java、Python和Spark SQL。Spark SQL非常类似于SQL92,所以几乎不需要经历一番学习,马上可以上手。
Spark帮助人们简化了处理大规模数据的步骤流程,将许多复杂的功能(比如机器学习算法和图算法)无缝地结合起来,并以其快如闪电的计算速度,正在快速地扩大着自己的影响力,我们有理由相信,凭借Spark独特的优异性能,未来Spark必将会绽放出更为璀璨的光芒。
文章来源:大数据科技视界(微信公众号:bigdata_horizon)
猜你喜欢
- 2024-11-10 Spark很全的知识点总结(spark很全的知识点总结是什么)
- 2024-11-10 大数据Hadoop之——计算引擎Spark
- 2024-11-10 大佬用10小时就把Spark讲完了,附6大技术文档
- 2024-11-10 SPARK官方教程系列快速入门(spark基础入门)
- 2024-11-10 腾讯大数据专家首次分享这份Spark实战指南(PDF)
- 2024-11-10 30分钟理解Spark的基本原理(spark的工作原理和作用)
- 2024-11-10 深度预警:Spark运行原理(spark的基本运行流程)
- 2024-11-10 Spark整合Ray思路漫谈(spark infrastructure)
- 2024-11-10 简单介绍spark(简单介绍自己)
- 2024-11-10 十年大数据专家,手把手带你玩转大数据,Spark技术栈的深度解析
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- 下划线是什么 (87)
- 精美网站 (58)
- qq登录界面 (90)
- nginx 命令 (82)
- nginx .http (73)
- nginx lua (70)
- nginx 重定向 (68)
- Nginx超时 (65)
- nginx 监控 (57)
- odbc (59)
- rar密码破解工具 (62)
- annotation (71)
- 红黑树 (57)
- 智力题 (62)
- php空间申请 (61)
- 按键精灵 注册码 (69)
- 软件测试报告 (59)
- ntcreatefile (64)
- 闪动文字 (56)
- guid (66)
- abap (63)
- mpeg 2 (65)
- column (63)
- dreamweaver教程 (57)
- excel行列转换 (56)
本文暂时没有评论,来添加一个吧(●'◡'●)