開啟主選單

求真百科

來自 孔夫子網 的圖片

Java機器學習》,作者: [斯洛文尼亞] Boštjan Kaluža,出版社: 人民郵電出版社,譯者: 武傳海,出版年: 2017-9,頁數: 184,定價: 49.00元,裝幀: 平裝,叢書: 圖靈程序設計叢書·Java系列,ISBN: 9787115466808。

人民郵電出版社,1953年10月成立,隸屬於中國工信出版傳媒集團,是工業和信息化部主管的大型專業出版社[1]。建社以來,人民郵電出版社圍繞「立足工信事業,面向現代社會,傳播科學知識,引領美好生活」的出版宗旨,已發展成為集圖書、期刊、音像電子及數字出版於一體的綜合性出版大社[2]

目錄

內容簡介

本書介紹如何使用Java創建並實現機器學習算法,既有基礎知識,又提供實戰案例。主要內容包括:機器學習基本概念、原理,Weka、Mahout、Spark等常見機器學習庫的用法,各類機器學習常見任務,包括分類、預測預報、購物籃分析、檢測異常、行為識別、圖像識別以及文本分析。最後還提供了相關Web資源、各種技術研討會議以及機器學習挑戰賽等進階所需內容。

作者介紹

Boštjan Kaluža

博士,人工智能與機器學習專家,現任Evolven公司(領先的IT運營分析公司,致力於配置管理業務)首席數據科學家,主攻機器學習、預測分析、模式挖掘與異常檢測,旨在把數據轉化為人類可理解的信息與可供實用的知識。 更多信息請訪問http://bostjankaluza.net。

目錄

第1章 機器學習應用快速入門  1

1.1 機器學習與數據科學  1

1.1.1 機器學習能夠解決的問題  2

1.1.2 機器學習應用流程  3

1.2 數據與問題定義  4

1.3 數據收集  5

1.3.1 發現或觀察數據  5

1.3.2 生成數據  6

1.3.3 採樣陷阱  7

1.4 數據預處理  7

1.4.1 數據清洗  8

1.4.2 填充缺失值  8

1.4.3 剔除異常值  8

1.4.4 數據轉換  9

1.4.5 數據歸約  10

1.5 無監督學習  10

1.5.1 查找相似項目  10

1.5.2 聚類  12

1.6 監督學習  13

1.6.1 分類  14

1.6.2 回歸  16

1.7 泛化與評估  18

1.8 小結  21

第2章 面向機器學習的Java庫與平台  22

2.1 Java環境  22

2.2 機器學習庫  23

2.2.1 Weka  23

2.2.2 Java機器學習  25

2.2.3 Apache Mahout  26

2.2.4 Apache Spark  27

2.2.5 Deeplearning4j  28

2.2.6 MALLET  29

2.2.7 比較各個庫  30

2.3 創建機器學習應用  31

2.4 處理大數據  31

2.5 小結  33

第3章 基本算法——分類、回歸和聚類  34

3.1 開始之前  34

3.2 分類  35

3.2.1 數據  35

3.2.2 加載數據  36

3.2.3 特徵選擇  37

3.2.4 學習算法  38

3.2.5 對新數據分類  40

3.2.6 評估與預測誤差度量  41

3.2.7 混淆矩陣  41

3.2.8 選擇分類算法  42

3.3 回歸  43

3.3.1 加載數據  43

3.3.2 分析屬性  44

3.3.3 創建與評估回歸模型  45

3.3.4 避免常見回歸問題的小技巧  48

3.4 聚類  49

3.4.1 聚類算法  49

3.4.2 評估  50

3.5 小結  51

第4章 利用集成方法預測客戶關係  52

4.1 客戶關係數據庫  52

4.1.1 挑戰  53

4.1.2 數據集  53

4.1.3 評估  54

4.2 最基本的樸素貝葉斯分類器基準  55

4.2.1 獲取數據  55

4.2.2 加載數據  56

4.3 基準模型  58

4.3.1 評估模型  58

4.3.2 實現樸素貝葉斯基準線  59

4.4 使用集成方法進行高級建模  60

4.4.1 開始之前  60

4.4.2 數據預處理  61

4.4.3 屬性選擇  62

4.4.4 模型選擇  63

4.4.5 性能評估  66

4.5 小結  66

第5章 關聯分析  67

5.1 購物籃分析  67

5.2 關聯規則學習  69

5.2.1 基本概念  69

5.2.2 Apriori算法  71

5.2.3 FP-增長算法  71

5.2.4 超市數據集  72

5.3 發現模式  73

5.3.1 Apriori算法  73

5.3.2 FP-增長算法  74

5.4 在其他領域中的應用  75

5.4.1 醫療診斷  75

5.4.2 蛋白質序列  75

5.4.3 人口普查數據  76

5.4.4 客戶關係管理  76

5.4.5 IT運營分析  76

5.5 小結  77

第6章 使用Apache Mahout製作推薦引擎  78

6.1 基本概念  78

6.1.1 關鍵概念  79

6.1.2 基於用戶與基於項目的分析  79

6.1.3 計算相似度的方法  80

6.1.4 利用與探索  81

6.2 獲取Apache Mahout  81

6.3 創建一個推薦引擎  84

6.3.1 圖書評分數據集  84

6.3.2 加載數據  84

6.3.3 協同過濾  89

6.4 基於內容的過濾  97

6.5 小結  97

第7章 欺詐與異常檢測  98

7.1 可疑與異常行為檢測  98

7.2 可疑模式檢測  99

7.3 異常模式檢測  100

7.3.1 分析類型  100

7.3.2 事務分析  101

7.3.3 規劃識別  101

7.4 保險理賠欺詐檢測  101

7.4.1 數據集  102

7.4.2 為可疑模式建模  103

7.5 網站流量異常檢測  107

7.5.1 數據集  107

7.5.2 時序數據中的異常檢測  108

7.6 小結  113

第8章 利用Deeplearning4j進行圖像識別  114

8.1 圖像識別簡介  114

8.2 圖像分類  120

8.2.1 Deeplearning4j  120

8.2.2 MNIST數據集  121

8.2.3 加載數據  121

8.2.4 創建模型  122

8.3 小結  128

第9章 利用手機傳感器進行行為識別  129

9.1 行為識別簡介  129

9.1.1 手機傳感器  130

9.1.2 行為識別流水線  131

9.1.3 計劃  132

9.2 從手機收集數據  133

9.2.1 安裝Android Studio  133

9.2.2 加載數據採集器  133

9.2.3 收集訓練數據  136

9.3 創建分類器  138

9.3.1 減少假性轉換  140

9.3.2 將分類器嵌入移動應用  142

9.4 小結  143

第10章 利用Mallet進行文本挖掘——主題模型與垃圾郵件檢測  144

10.1 文本挖掘簡介  144

10.1.1 主題模型  145

10.1.2 文本分類  145

10.2 安裝Mallet  146

10.3 使用文本數據  147

10.3.1 導入數據  149

10.3.2 對文本數據做預處理  150

10.4 為BBC新聞做主題模型  152

10.4.1 BBC數據集  152

10.4.2 建模  153

10.4.3 評估模型  155

10.4.4 重用模型  156

10.5 垃圾郵件檢測  157

10.5.1 垃圾郵件數據集  158

10.5.2 特徵生成  159

10.5.3 訓練與測試模型  160

10.6 小結  161

第11章 機器學習進階  162

11.1 現實生活中的機器學習  162

11.1.1 噪聲數據  162

11.1.2 類不平衡  162

11.1.3 特徵選擇困難  163

11.1.4 模型鏈  163

11.1.5 評價的重要性  163

11.1.6 從模型到產品  164

11.1.7 模型維護  164

11.2 標準與標記語言  165

11.2.1 CRISP-DM  165

11.2.2 SEMMA方法  166

11.2.3 預測模型標記語言  166

11.3 雲端機器學習  167

11.4 Web資源與比賽  168

11.4.1 數據集  168

11.4.2 在線課程  169

11.4.3 比賽  170

11.4.4 網站與博客  170

11.4.5 場館與會議  171

11.5 小結  171

· · · · · ·

參考文獻

  1. 我國出版社的等級劃分和分類標準,知網出書,2021-03-01
  2. 人民郵電出版社簡介,人民郵電出版社