開啟主選單

求真百科

Spark快速大數據分析

來自 孔夫子網 的圖片

Spark快速大數據分析》,朱爾斯·S.達米吉等 著,王道遠 譯,出版社: 人民郵電出版社。

人民郵電出版社是全國優秀出版社、全國百佳圖書出版單位。人民郵電出版社出版領域涵蓋科技出版、教育出版、大眾出版,涉及信息技術、通信、工業技術、科普[1]、經濟管理、攝影、藝術、運動與休閒、心理學、少兒、大中專教材等10餘個出版門類,年出版圖書[2]近萬種。

目錄

內容簡介

本書的主角是在大數據時代應運而生的數據處理與分析利器——Spark。你將通過豐富的示例學習如何使用Spark的結構化數據API,利用Spark SQL進行交互式查詢,掌握Spark應用的優化之道,用Spark和Delta Lake等開源工具構建可靠的數據湖,並用MLlib庫實現機器學習流水線。隨着Spark從2.x版本升級到3.0版本,本書第2版做了全面的更新,以體現Spark生態系統在機器學習、流處理技術等方面的發展,另新增一章詳解Spark 3.0引入的新特性。

作者介紹

【作者簡介】

朱爾斯·S. 達米吉(Jules S. Damji)是Databricks的高級開發人員,也是MLflow的貢獻者。

布魯克·韋尼希(Brooke Wenig)是Databricks的機器學習。

泰瑟加塔·達斯(Tathagata Das)是Databricks的軟件工程師,也是Apache Spark PMC成員。

丹尼·李(Denny Lee)是Databricks的軟件工程師

【譯者簡介】

王道遠

目前就職於阿里雲開源大數據平台數據湖存儲團隊,花名「健身」,主要負責數據湖架構下的緩存優化工作。有多年的大數據開發經驗,熟悉Spark源碼,從2014年開始參與Spark項目,曾為Spark貢獻大量修復和新特性,也曾作為主要貢獻者參與了OAP和SparkCube等Spark生態開源項目的開發。

參考文獻

  1. 100部科普經典名著,豆瓣,2018-04-26
  2. 圖書的演變歷史資料,學習啦,2017-06-07