Spark快速大数据分析查看源代码讨论查看历史

来自孔夫子网的图片

《Spark快速大数据分析》，朱尔斯·S.达米吉等著，王道远译，出版社：人民邮电出版社。

人民邮电出版社是全国优秀出版社、全国百佳图书出版单位。人民邮电出版社出版领域涵盖科技出版、教育出版、大众出版，涉及信息技术、通信、工业技术、科普^[1]、经济管理、摄影、艺术、运动与休闲、心理学、少儿、大中专教材等10余个出版门类，年出版图书^[2]近万种。

内容简介

本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API，利用Spark SQL进行交互式查询，掌握Spark应用的优化之道，用Spark和Delta Lake等开源工具构建可靠的数据湖，并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本，本书第2版做了全面的更新，以体现Spark生态系统在机器学习、流处理技术等方面的发展，另新增一章详解Spark 3.0引入的新特性。

作者介绍

【作者简介】

朱尔斯·S. 达米吉（Jules S. Damji）是Databricks的高级开发人员，也是MLflow的贡献者。

布鲁克·韦尼希（Brooke Wenig）是Databricks的机器学习。

泰瑟加塔·达斯（Tathagata Das）是Databricks的软件工程师，也是Apache Spark PMC成员。

丹尼·李（Denny Lee）是Databricks的软件工程师。

【译者简介】

王道远

目前就职于阿里云开源大数据平台数据湖存储团队，花名“健身”，主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验，熟悉Spark源码，从2014年开始参与Spark项目，曾为Spark贡献大量修复和新特性，也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。

参考文献

↑ 100部科普经典名著，豆瓣，2018-04-26
↑ 图书的演变历史资料，学习啦，2017-06-07

[1] 100部科普经典名著，豆瓣，2018-04-26

[2] 图书的演变历史资料，学习啦，2017-06-07

[1]

[2]

Spark快速大数据分析查看源代码讨论查看历史

目录

内容简介

作者介绍

参考文献