Spark快速大数据分析查看源代码讨论查看历史
《Spark快速大数据分析》,朱尔斯·S.达米吉等 著,王道远 译,出版社: 人民邮电出版社。
人民邮电出版社是全国优秀出版社、全国百佳图书出版单位。人民邮电出版社出版领域涵盖科技出版、教育出版、大众出版,涉及信息技术、通信、工业技术、科普[1]、经济管理、摄影、艺术、运动与休闲、心理学、少儿、大中专教材等10余个出版门类,年出版图书[2]近万种。
内容简介
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用Spark SQL进行交互式查询,掌握Spark应用的优化之道,用Spark和Delta Lake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark 3.0引入的新特性。
作者介绍
【作者简介】
朱尔斯·S. 达米吉(Jules S. Damji)是Databricks的高级开发人员,也是MLflow的贡献者。
布鲁克·韦尼希(Brooke Wenig)是Databricks的机器学习。
泰瑟加塔·达斯(Tathagata Das)是Databricks的软件工程师,也是Apache Spark PMC成员。
丹尼·李(Denny Lee)是Databricks的软件工程师。
【译者简介】
王道远
目前就职于阿里云开源大数据平台数据湖存储团队,花名“健身”,主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验,熟悉Spark源码,从2014年开始参与Spark项目,曾为Spark贡献大量修复和新特性,也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。
参考文献
- ↑ 100部科普经典名著,豆瓣,2018-04-26
- ↑ 图书的演变历史资料,学习啦,2017-06-07