Hadoop权威指南

Hadoop权威指南
原图链接来自搜狗的图片

本书从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共14章，3个附录，涉及的主题包括：Haddoop简介；MapReduce简介；Hadoop分布式文件系统；Hadoop的I／O、MapReduce应用程序开发；MapReduce的工作机制；MapReduce的类型和格式；MapReduce的特性；如何安装Hadoop集群，如何管理Hadoop；Pig简介；Hbase简介；ZooKeeper简介，最后还提供了丰富的案例分析。

基本介绍

书　名： Hadoop权威指南

作　者：（美）怀特　著，曾大聃，周傲英　译，周敏　审校

出版社：清华大学出版社

出版时间： 2010-5-1

I S B N ： 9787302224242

定　价：￥79.00

内容简介

本书是Hadoop权威参考，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装与运行Hadoop集群。

图书目录

第1章初识Hadoop

第2章 MapReduce简介

第3章 Hadoop分布式文件系统

第4章 Hadoop的I/O

第5章 MapReduce应用开发

第6章 MapReduce的工作原理

第7章 MapReduce的类型与格式

第8章 MapReduce特性

第9章 Hadoop集群的安装

第10章 Hadoop的管理

第11章 Pig简介

第12章 Hbase简介

第13章 ZooKeeper简介

第14章案例研究

附录A Apache Hadoop的安装

附录B Cloudera的Hadoop分发包

附录C 预备NCDC气象资料

Hadoop与传统BI的对比

新兴互联网公司百度，以及传统航空企业东航，都在大数据领域进行了深入尝试，同样在大数据领域同样乐此不疲的还有雅虎、中国移动、阿里巴巴等。这些企业都无一例外的认识到，数据已经成为企业的核心资产，如何充分利用这部分核心资产，并挖掘更多的商业价值，将关乎这些企业能否在大数据时代继续保持基业常青。

今天，企业对数据价值的认同已经成为共识，然而如何从海量的数据信息中挖掘其中的价值却并不那么容易，幸运的是，百度找到了hadoop数据挖掘与分析工具。

“当时的百度也有自己的几个分布式处理框架，但是在扩展性和容错方面尚有一些问题，并且都较为专用，缺乏较通用的计算模型。那时百度也启动了一系列较底层的基础框架方面的项目，同时也看到了Google关于MapReduce的论文，于是开始了基于自身需求的Hadoop定制化。”马如悦如是说。

Hadoop是一个开源的分布式系统基础架构，由Apache基金会开发，使得用户可以在不了解分布式底层细节的情况下，开发分布式应用程序，充分利用集群的威力实现高速运算和存储。Hadoop尤其适合大数据的分析与挖掘，最为常见的应用就是Web数据分析。因为从本质上讲，Hadoop提供了在大规模服务器集群中捕捉、组织、搜索、共享以及分析数据的模式，且可以支持多种数据源 (结构化、半结构化和非结构化)，规模则能够从几十台服务器扩展到上千台服务器。

随着越来越多的传统企业开始关注大数据的价值，Hadoop也开始在传统企业的商业智能或数据分析系统中扮演重要角色。相比传统的基于数据库的商业智能解决方案，Hadoop拥有无以比拟的灵活性优势和成本优势，这一点eBay自动化架构总监Juhan Lee深有体会：

“从海量的非结构化数据中分析数据，并试图找出其中暗藏的规律时，我们往往需要构建一个数据分析的模型，并把这些非结构化数据进行结构化，生成一个分析型的数据库。” Juhan解释说。

“问题在于，你根据某种分析的需要将大批非结构化数据转化成结构化数据之后，一旦分析的需求发生变化，你需要把之前的工作重新做一遍。Hadoop的内部数据存储能力是非常重要的，能在你不知道该如何处理数据的时候尽可能多的保存数据，Hadoop系统允许你不断的尝试。在传统的数据分析系统中，你必须明确的知道你希望做什么，需要哪些数据。”

而百度马如悦则告诉IT168编辑：MapReduce现在在百度使用非常广泛，包括分布式网页索引的建立，各种日志的挖掘分析等。集群总机器数在万数量级，日均输入数据处理量在20PB左右。

此外马如悦认为Hadoop 并不适用于不涉及大量数据的实时处理、计算密集型任务。“一般而言，我们认为MapReduce较适合处理时效性要求在5分钟以上的业务。”

媒体推荐

有了这本权威指南，读者有机会通过大师的手笔来学习Hadoop——在掌握技术的同时，领略作者的睿智和清晰的文风。 ——Hadoop创始人 Doug Cutting于Cloudera

作者简介

作者：（美国）怀特（Tom White）译者：周敏奇钱卫宁金澈清王晓玲

怀特（Tom White），从2007年以来，一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一，同时也是Cloudera的一名工程师。Tom为oreully网、java.net和IBM的developerWorks写过大量文章，并经常在很多行业大会上发表演讲。^[1]

参考文献

跳转 ↑ Hadoop权威指南（第2版）豆瓣读书网

[1] 跳转 ↑ Hadoop权威指南（第2版）豆瓣读书网

[1]