Hadoop权威指南(第3版 修订版)
图书信息
书名:Hadoop权威指南(第3版 修订版)作者:Tom White,华东师范大学数据科学与工程学院
包装:平装
开本:16
页数:716页
出版社:清华大学出版社
出版时间:2015-1
图书简介
《Hadoop权威指南》介绍了大数据时代如何利用Apache Hadoop构建稳定、高效、可扩展的分布式系统。本书对于程序员分析任意大小的数据集或管理员设置和运行Hadoop集群都非常有用。本书的第3版增加了对MapReduce API和更灵活的执行模型(YARN)的讲解,并加入了更多实例学习内容,帮助读者深入了解Hadoop的幕后机理。
第1章介绍了什么是Hadoop,Hadoop的发展历程,Apache Hadoop和Hadoop生态系统等相关知识。
第2章以气象数据集为例,详细讲解了MapReduce和Java MapReduce的关系,横向扩展、combiner函数、MapReduce的数据流等内容。
第3章介绍了Hadoop分布式文件系统(HDFS)的设计和基本概念,包括数据块、namenode和datanode、联邦HDFS、HDFS的高可用性等。
第4章讲解了Hadoop的I/O操作,包括数据完整性、压缩、序列化、序列化框架和基于文件的数据结构等。
第5章介绍了如何开发MapReduce应用程序,包括用于配置的API、配置开发环境、使用MRUnit进行单元测试、在本地运行测试数据、在集群上运行、作业调优等。
第6章深入剖析了MapReduce作业运行机制,介绍了经典MapReduce和YARN(MapReduce 2)的区别、如何处理失败、作业的调度、shuffle和排序等。
第7章讲解了MapReduce的类型与格式,包括默认的MapReduce作业、输入格式与输出格式、多个输入与输出等。
第8章介绍了MapReduce的特性,包括计数器、Mapper输出的键与值、排序、归约、物联网与大数据等相关内容。
推荐理由
如果你对大数据和Hadoop感兴趣,那么《Hadoop权威指南》一定是你的不二之选!无论你是程序员还是管理员,本书都能够帮助你分析和处理任意大小的数据集,并建立稳定、高效、可扩展的分布式系统。此外,本书还新增了一些实例学习的内容,让你更深入了解Hadoop的幕后机理。如果你想成为一名优秀的Hadoop开发者或者管理员,那么这本书绝对不能错过!