数据算法:Hadoop/Spark大数据处理技巧
图书信息
书名:数据算法:Hadoop/Spark大数据处理技巧作者:Mahmoud Parsian,马哈默德·帕瑞斯安,苏金国,杨健康
包装:Paperback
开本:16
全文字数:834000
出版社:中国电力出版社
出版时间:2016-10-1
图书简介
《数据算法:Hadoop/Spark大数据处理技巧》是市面上NO.1本关于Hadoop与Spark大数据处理技巧的教程,适合已经了解Java基础及想使用Hadoop和Spark开发MapReduce算法、解决数据挖掘、机器学习、生物信息技术、基因组和统计领域中问题的软件工程师、软件架构师、数据科学家和应用开发人员。书中详细介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,主要内容包括完成超大量交易的购物篮分析、数据挖掘算法(K-均值、KNN和朴素贝叶斯)以及使用超大基因组数据完成DNA和RNA测序等。此外,它还介绍了朴素贝叶斯定理和马尔可夫链实现的数据和市场预测、推荐算法和成对文档相似性、线性回归、Cox回归和皮尔逊(Pearson)相关分析、等位基因频率和DNA挖掘,以及社交网络分析(推荐系统、三角形计数和情感分析)。读完本书,读者将能够掌握基本设计模式和优化技术,并能够使用Hadoop和Spark处理大数据并开发MapReduce算法解决实际问题。
推荐理由
本书是一本很好的学习Hadoop和Spark大数据处理技巧的教程。对于已经了解Java基础知识的人来说,这本书将会是一个很好的引导工具。全书详细介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,并提供了大量实例,不仅有大量算法和工具,还可以帮助读者解决实际问题。此外,本书结构清晰,讲解详细,适合初学者学习,同时也适合有经验的读者巩固知识和拓展技能。