Hadoop权威指南
Hadoop权威指南 |
本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何安装Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;ZooKeeper简介,最后还提供了丰富的案例分析。
目录
基本介绍
内容简介
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。
图书目录
第1章 初识Hadoop
第2章 MapReduce简介
第3章 Hadoop分布式文件系统
第4章 Hadoop的I/O
第5章 MapReduce应用开发
第6章 MapReduce的工作原理
第7章 MapReduce的类型与格式
第8章 MapReduce特性
第9章 Hadoop集群的安装
第10章 Hadoop的管理
第11章 Pig简介
第12章 Hbase简介
第13章 ZooKeeper简介
第14章 案例研究
附录A Apache Hadoop的安装
附录B Cloudera的Hadoop分发包
附录C 预备NCDC气象资料
Hadoop与传统BI的对比
新兴互联网公司百度,以及传统航空企业东航,都在大数据领域进行了深入尝试,同样在大数据领域同样乐此不疲的还有雅虎、中国移动、阿里巴巴等。这些企业都无一例外的认识到,数据已经成为企业的核心资产,如何充分利用这部分核心资产,并挖掘更多的商业价值,将关乎这些企业能否在大数据时代继续保持基业常青。
今天,企业对数据价值的认同已经成为共识,然而如何从海量的数据信息中挖掘其中的价值却并不那么容易,幸运的是,百度找到了hadoop数据挖掘与分析工具。
“当时的百度也有自己的几个分布式处理框架,但是在扩展性和容错方面尚有一些问题,并且都较为专用,缺乏较通用的计算模型。那时百度也启动了一系列较底层的基础框架方面的项目,同时也看到了Google关于MapReduce的论文,于是开始了基于自身需求的Hadoop定制化。”马如悦如是说。
Hadoop是一个开源的分布式系统基础架构,由Apache基金会开发,使得用户可以在不了解分布式底层细节的情况下,开发分布式应用程序,充分利用集群的威力实现高速运算和存储。Hadoop尤其适合大数据的分析与挖掘,最为常见的应用就是Web数据分析。因为从本质上讲,Hadoop提供了在大规模服务器集群中捕捉、组织、搜索、共享以及分析数据的模式,且可以支持多种数据源 (结构化、半结构化和非结构化),规模则能够从几十台服务器扩展到上千台服务器。
随着越来越多的传统企业开始关注大数据的价值,Hadoop也开始在传统企业的商业智能或数据分析系统中扮演重要角色。相比传统的基于数据库的商业智能解决方案,Hadoop拥有无以比拟的灵活性优势和成本优势,这一点eBay自动化架构总监Juhan Lee深有体会:
“从海量的非结构化数据中分析数据,并试图找出其中暗藏的规律时,我们往往需要构建一个数据分析的模型,并把这些非结构化数据进行结构化,生成一个分析型的数据库。” Juhan解释说。
“问题在于,你根据某种分析的需要将大批非结构化数据转化成结构化数据之后,一旦分析的需求发生变化,你需要把之前的工作重新做一遍。Hadoop的内部数据存储能力是非常重要的,能在你不知道该如何处理数据的时候尽可能多的保存数据,Hadoop系统允许你不断的尝试。在传统的数据分析系统中,你必须明确的知道你希望做什么,需要哪些数据。”
而百度马如悦则告诉IT168编辑:MapReduce现在在百度使用非常广泛,包括分布式网页索引的建立,各种日志的挖掘分析等。集群总机器数在万数量级,日均输入数据处理量在20PB左右。
此外马如悦认为Hadoop 并不适用于不涉及大量数据的实时处理、计算密集型任务。“一般而言,我们认为MapReduce较适合处理时效性要求在5分钟以上的业务。”
推荐
《Hadoop权威指南(第2版)(修订•升级版)》编辑推荐:Google帝国的基石是什么?MapReduce算法!开源项目Hadoop作为它的一个具体实现,可以轻松用于构建和维护一个可靠性高、伸缩性强的分布式系统。 作者Tom White作为Hadoop的项目负责人,通过自己对Hadoop和Hadoop社区的理解,化繁为简,用浅显易懂的语言介绍了Hadoop能做什么,怎么做才能充分发挥Hadoop的优势,Hadoop能够和哪些开源工具结合使用。《Hadoop权威指南(第2版)》是一本主题丰富、讲解透彻的权威参考书,可帮助程序员了解分析海量数据集的细枝末节,帮助管理员掌握搭建和运行Hadoop集群的具体过程。
经过修订和更新的第2版概述了Hadoop的最新动态,例如Hive、sqoop和Avro等。书中还提供了案例分析来帮助读者了解如何用Hadoop来解决具体的问题。如果想充分利用数据,从中挖掘出有价值的见解或者观点,毫无疑问,《Hadoop权威指南(第2版)(修订•升级版)》将是您不可或缺的重要参考。
“谁说大象不能跳舞?Hadoop-轻松应对海量数据存储与分析所带来的挑战!”
使用Hadoop分布式文件系统(HDFS)来存储大型数据集,然后用MapReduce对这些数据II执行分布式计算。Hadoop的数据和I/O构建块(用于压缩、数据完整性、序列化和持久处理)。
探究MapReduce应用开发中常见的陷阱和高级特性。设计,构建和管理Hadoop专用集群或在云上运行Hadoop。使用Pig这种高级的查询语言来进行大规模数据处理。使用Hive(Hadoop的数据仓库系统)来分析数据集。
使用HBase(Hadoop的数据库)来处理结构化数据和半结构化数据。
深入介绍Zookeeper,一个用于构建分布式系统的协作类型工具箱。
Cloudera是一家行业领先的Hadoop软件和服务供应商。Cloudera's Distribution forHadoop (CDH)是一个基于Apache Hadoop的综合性数据管理平台,Cloudera Enterprise则包括一些工具、平台和支持,供生产环境中使用Hadoop时使用。
媒体推荐
有了这本权威指南,读者有机会通过大师的手笔来学习Hadoop——在掌握技术的同时,领略作者的睿智和清晰的文风。 ——Hadoop创始人 Doug Cutting于Cloudera
作者简介
作者:(美国)怀特(Tom White) 译者:周敏奇 钱卫宁 金澈清 王晓玲
怀特(Tom White),从2007年以来,一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一,同时也是Cloudera的一名工程师。Tom为oreully网、java.net和IBM的developerWorks写过大量文章,并经常在很多行业大会上发表演讲。[1]
参考文献
- ↑ Hadoop权威指南(第2版)豆瓣读书网