非平衡數據分類理論與方法檢視原始碼討論檢視歷史
《非平衡數據分類理論與方法》,翟俊海 著,出版社: 科學出版社。
讀書,可以與時俱進,開闊自己,提高自己,充實自己,完善自己,是全球文化[1]科技知識擴容和更新的需要,是知識[2]經濟和社會發展的要求。
內容簡介
在實際應用中,需要處理的數據常常具有類別不平衡的特點.例如,用於信用卡欺詐檢測、垃圾郵件過濾、機械故障診斷、疾病診斷、極端天氣預測預報等的數據都是類別非平衡數據.研究非平衡數據分類問題具有重要意義和實際應用價值,引起機器學習領域研究人員的廣泛關注.《非平衡數據分類理論與方法》結合作者團隊在非平衡數據分類中的研究成果,系統介紹非平衡數據分類的理論基礎、模型評價、數據級方法、算法級方法和集成學習方法.
目錄
「信息科學技術學術着作叢書」序
前言
第1章 理論基礎1
1.1 數據分類1
1.2 K-近鄰4
1.3 決策樹5
1.3.1 離散值決策樹6
1.3.2 連續值決策樹19
1.4 神經網絡25
1.4.1 神經元模型25
1.4.2 梯度下降算法26
1.4.3 多層感知器模型29
1.4.4 卷積神經網絡33
1.5 極限學習機43
1.6 支持向量機46
1.6.1 線性可分支持向量機46
1.6.2 近似線性可分支持向量機50
1.6.3 線性不可分支持向量機51
1.7 集成學習54
1.7.1 集成學習簡介54
1.7.2 Bagging算法55
1.7.3 Boosting算法56
1.7.4 隨機森林算法57
1.7.5 模糊積分集成算法60
第2章 模型評價63
2.1 基本度量63
2.2 ROC*線與AUC面積65
2.2.1 ROC*線65
2.2.2 AUC面積68
2.3 損失函數71
2.4 偏差與方差80
2.5 多樣性度量81
2.5.1 成對多樣性度量82
2.5.2 非成對多樣性度量83
2.5.3 分類器集成的多樣性和分類精度之間的關係85
第3章 數據級方法86
3.1 數據級方法概述86
3.2 SMOTE算法88
3.3 B-SMOTE算法89
3.4 基於生成模型上採樣的兩類非平衡數據分類算法89
3.4.1 基於極限學習機自動編碼器的上採樣算法91
3.4.2 基於生成對抗網絡的上採樣算法93
3.4.3 算法實現及與其他算法的比較98
3.5 基於自適應聚類和模糊數據約簡下採樣的兩類非平衡大數據分類算法109
3.5.1 大數據概述109
3.5.2 大數據處理系統110
3.5.3 聚類分析127
3.5.4 兩類非平衡大數據分類算法134
3.5.5 算法實現及與其他算法的比較138
第4章 算法級方法144
4.1 算法級方法概述144
4.2 基於代價敏感性學習的非平衡數據分類方法146
4.2.1 代價敏感性學習基礎146
4.2.2 代價敏感性支持向量機151
4.2.3 代價敏感Boosting算法151
4.3 基於深度學習的非平衡圖像數據分類方法153
4.3.1 針對非平衡圖像數據的深度表示學習153
4.3.2 針對長尾識別的目標監督對比學習156
4.3.3 針對長尾識別的深度嵌入和數據增廣學習方法159
第5章 集成學習方法163
5.1 集成學習方法概述163
5.2 SMOTEBoost算法與SMOTEBagging算法164
5.3 基於改進D2 GAN上採樣和分類器融合的兩類非平衡數據分類166
5.3.1 基於改進D2 GAN的上採樣方法166
5.3.2 基於改進D2 GAN上採樣和分類器融合的兩類非平衡數據分類169
5.3.3 算法實現及與其他算法的比較172
5.4 基於MapReduce和極限學習機集成的兩類非平衡大數據分類179
5.4.1 交替上採樣方法179
5.4.2 基於交替上採樣和集成學習的兩類非平衡大數據分類180
5.4.3 算法實現及與其他算法的比較182
5.5 基於異類*近鄰超球上採樣和集成學習的兩類非平衡大數據分類186
5.5.1 基於MapReduce和異類*近鄰超球的上採樣186
5.5.2 基於異類*近鄰超球上採樣和模糊積分集成的兩類非平衡大數據分類188
5.5.3 算法實現及與其他算法的比較188
參考文獻194