Python和PySpark数据分析查看源代码讨论查看历史

《Python和PySpark数据分析》，出版社：清华大学出版社，ISBN：9787302645368。

清华大学出版社成立于1980年6月，是教育部主管、清华大学主办的综合性大学出版社^[1]。清华社先后荣获 “先进高校出版社”“全国优秀出版社”“全国百佳图书出版单位”“中国版权最具影响力企业”“首届全国教材建设奖全国教材建设先进集体”等荣誉^[2]。

内容简介

Spark数据处理引擎是一个惊人的分析工厂：输入原始数据，输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线，并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。《Python和PySpark数据分析》帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力，同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识，就可以通过构建机器学习管道，并配合Python、pandas和PySpark代码，探索PySpark的全面多功能特性。主要内容 ● 组织PySpark代码 ● 管理任何规模的数据 ● 充满信心地扩展你的数据项目 ● 解决常见的数据管道问题 ● 创建可靠的长时间运行的任务

作者介绍

作为一家数据驱动软件公司的ML总监，Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

参考文献

↑ 我国出版社的等级划分和分类标准，知网出书，2021-03-01
↑ 企业简介，清华大学出版社有限公司

[1] 我国出版社的等级划分和分类标准，知网出书，2021-03-01

[2] 企业简介，清华大学出版社有限公司

[1]

[2]

Python和PySpark数据分析查看源代码讨论查看历史

目录

内容简介

作者介绍

参考文献