前言
云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。典型的云计算提供商往往提供通用的网络业务应用,可以通过浏览器等软件或者其他Web服务来访问,而软件和数据都存储在服务器上。云计算服务通常提供通用的通过浏览器访问的在线商业应用,软件和数据可存储在数据中心。
狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;
广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务,它意味着计算能力也可作为一种商品通过互联网进行流通。对云计算的定义有多种说法,“云计算是通过网络提供可伸缩的廉价的分布式计算能力”。
大数据又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大家了解了云计算和大数据的基本概念之后,接下来就给大家介绍腾讯大牛强烈推荐学习的实战Hadoop2.0:从云计算到大数据pdf,已经是第二版了!
本文系统介绍了Hadoop 2.0生态圈的核心和扩展组件,包括:管理工具Ambari、分布式文件系统HDFS、分布式资源管理器YARN、分布式并行处理MapReduce、内存型计算框架Spark、 数据流实时处理系统Storm、 分布式锁服务ZooKeeper、 分布式数据库HBase、数据仓库工具Hive,以及Pig、Oozie、 Flume、 Mahout 等。
学习目录
主要内容
全文总共分为12章,520页的内容,希望大家能够仔细品读,领会其中的真谛!!!
第1章大数据组件概述
“人类自有史以来的数据总量,每过18个月就会翻番”“新摩尔定律”。据不完全统计,早在2011年,全球数据总量就已达到了2.1ZB。IDC更是预计2020年全球数据总量将超过40ZB (40 万亿GB),这相当于届时全球每人平均拥有5TB的数据量。对于如此海量的数据,传统的软件已很难处理(收集、存储、分析和应用)它们。本章所讲述的大数据组件即用来处理海量数据的一整套解决方法, 不过本章只介绍这些组件,并不深入组件内部,后续章节将详细讲述部分大数据组件。
第2章大数据集群
对大部分用户来说,大数据集群神秘莫测,难以捉摸,本章的目的就是构建这样一个属于自己的大数据集群。在给出大数据相关定义后,首先简单介绍云创大数据公司内部的大数据集群bigCstor,然后以bigCstor 为模板构建本书范例大数据集群lttleCstor。
第3章集群管理工具Ambari
Ambari是当前最常用的大数据集群管理工具。本章重点讲述使用Ambari管理HDP,并在lttleCstor上进行实际操作。
第4章分布式文件系统HDFS
随着移动互联网的快速发展,特别是以博客、社交网络为代表的新型信息发布系统在移动终端的成功应用,数据正以前所未有的速度在不断地增长着。大数据时代已经来临,而大数据面临的首要问题就是存储。本章首先通过实例引出分布式存储:接着重点讲解当前主流大数据存储工具一HDFS; 最后以实战方式讲述HDFS应用实例。
第5章分布式资源管理器YARN
我们知道,操作系统是一个用于管理计算机硬件资源并提供用户接口的一套系统软件。从这个概念上看(无论是功能还是定位),YARN 都像是-一个分布式操作系统(严格称为分布式资源管理器)。本章将首先讲述操作系统的概念并由此引入YARN,接着重点讲解YARN的体系架构。在最后实战环节,编者将会在lttleCstor实际操作YARN Shell和YARN编程。
第6章分布式并行处理MapReduce
M-S-R范式是处理海量数据时最常用的并行模型,MapReduce框架则是M-S-R范式的代码实现。本章以M-S-R范式为并行化模型,MapReduce 为系统框架,通过具体实例详细介绍MapReduce编程,使读者能够快速地掌握编写MapReduce并行程序的思想和方法。
第7章分布式锁服务Zooeeper
当单机上两个进程需要使用同一个资源时,即是所谓的“互斥”。在分布式环境下,不同机器上的多个进程间也存在着大量“同步”与“互斥”"操作,ZooKeer即是这样一个用来协调分布式环境下不同进程间“同步”与“互斥”操作的分布式锁服务。本章在讲述ZooKeeper基本知识后,将重点讲述借助ZooKeeper实现分布式环境下进程间通信。
第8章分布式数据库HBase
HBase"是基于Hadoop的开源分布式数据库,它以Google的BigTable 为原型,设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。
HBase不仅仅在其设计上不同于一-般的关系型数据库,在功能上区别更大,表现在其适合于存储非结构化数据,而且HBase是基于列的而不是基于行的模式。就像BigTable利用GFS (Google文件系统)所提供的分布式存储一样,HBase 在Hadoop之上提供了类似于BigTable的能力。
第9章内存型计算框架Spark
Spark是一个由加州伯克利分校开发的内存型计算框架",设计之初是为了处理迭代型机器学习任务,目前Spark.上已经集成了数据仓库、流处理、图计算等多种实用工具,是大数据领域完整的全栈计算平台。本章第一节重点讲述Spark 基本理论,接着在实战环节给出Spark核心弹性分布式数据集( Resilient Distributed Datasets, RDD)大量编程实例,以让读者以最快方式学习Spark。
第10章数据流实时处理系统Storm
Storm是一个基于数据流的实时处理系统,当数据到达系统后,会立刻被Storm系统载入到实时处理流中并在很短时间内完成处理。本章首先讲解Storm基础理论,接着讲述其典型应用。
第11章数据仓库工具Hive
Hive是Hadoop大数据生态圈中的数据仓库,其提供以表格的方式来组织与管理HDFS上的数据、以类SQL的方式来操作表格里的数据。本章在介绍Hive"的工作原理及其体系架构后,将重点讲述编写HiveQL完成大数据分析。
第12章其他常见大数据组件
Hadoop是谷歌GFS和MapReduce的开源实现,其HDFS和YARN分别为分布式集群提供了最基础的分布式存储和分布式集群资源管理功能,不过,Hadoop 大数据生态圈还包含- -些其他组件,这些组件- -般应用于特定场景(如数据收集、数据挖掘),本章即讲述这些实用小组件。
附录A手工部署Hadoop2.0
部署Hadoop是学习与使用Hadoop的必由之路,也是拦路虎,令初学者望而却步。
本节将深入浅出地讲解手工部署Hadoop, 和第三章遥相呼应,期望能把读者引入Hadoop的精彩世界。
腾讯T8大牛强烈推荐的这份【 实战Hadoop2.0:从云计算到大数据】PDF共有520页,已经整理打包好,需要需要完整版内容的朋友,可以转发此文关注小编,私信小编【学习】来获取!!
本文暂时没有评论,来添加一个吧(●'◡'●)