機器學習與社會科學應用檢視原始碼討論檢視歷史
《機器學習與社會科學應用》,郭峰 著,出版社: 上海財經大學出版社。
書籍對於人類原有很重大的意義,但,書籍不僅對那些不會讀書的人是毫無用處,就是對那些機械地讀完了書還不會從死的文字中引申活的思想[1]的人也是無用的。 —— 烏申斯基[2]
內容簡介
本書是「新文科·新投資系列」的一本。本教材將主要介紹機器學習的基本原理,以及它們在社會科學中的應用。本書的定位是面向熟悉計量經濟學、因果識別理論,但不熟悉機器學習的社會科學研究者。因此本書將更加側重於以淺顯直白的語言介紹機器學習的基本原理,並以文獻綜述、案例詳解等方式,介紹機器學習各個算法在社會科學實證研究中的代表性應用。對於代碼實操,本書也儘量選取了貼近社會科學研究者的案例,進行詳細闡述。 本書還以二維碼的形式將相關的代碼和具體應用呈現出來,供廣大社會科學研究人員參考。
目錄
第一章 機器學習基本原理與啟示/ 1 第一節 為什麼需要學習機器學習/ 1 第二節 機器學習的基本任務/ 5 第三節 機器學習基本原理/ 9 第四節 機器學習的應用與啟示/ 18 參考文獻/ 21 第二章 經典回歸算法/ 24 第一節 OLS回歸算法/ 24 第二節 嶺回歸算法/ 33 第三節 Lasso回歸算法/ 41 第四節 算法調參/ 49 參考文獻/ 57 第三章 經典分類算法/ 59 第一節 分類算法簡介/ 59 第二節 K近鄰算法/ 61 第三節 樸素貝葉斯算法/ 70 第四節 決策樹算法/ 75 第五節 支持向量機算法/ 83 第六節 分類算法評估/ 92 參考文獻/ 95 第四章 自然語言處理入門/ 97 第一節 自然語言處理的基本任務/ 97 第二節 分詞/ 103 第三節 TF-IDF/ 116 第四節 文本相似度/ 121 參考文獻/ 134 第五章 集成算法/ 136 第一節 集成算法基本原理/ 136 第二節 隨機森林算法/ 139 第三節 梯度提升樹算法/ 146 第四節 XGBoost算法/ 152 參考文獻/ 158 第六章 無監督學習算法/ 159 第一節 無監督學習簡介/ 159 第二節 聚類算法/ 161 第三節 降維算法/ 168 第四節 LDA主題模型/ 175 參考文獻/ 191 第七章 深度學習算法/ 193 第一節 神經網絡基本原理與前饋神經網絡/ 193 第二節 卷積神經網絡/ 207 第三節 循環神經網絡/ 217 第四節 Word2Vec詞嵌入算法/ 223 第五節 大語言模型簡介/ 229 參考文獻/ 235 第八章 特徵工程入門與實踐/ 237 第一節 特徵工程簡介/ 237 第二節 特徵理解:探索性分析/ 238 第三節 特徵增強:清洗數據/ 244 第四節 特徵構造:生成新數據/ 261 第五節 特徵選擇:篩選屬性/ 263 第六節 特徵轉換:數據降維/ 270 參考文獻/ 272 第九章 機器學習與因果識別/ 273 第一節 機器學習助力因果識別的基本邏輯/ 273 第二節 更好識別和控制混淆因素/ 275 第三節 更好地構建對照組/ 279 第四節 更好地識別異質性因果效應/ 287 第五節 更好地檢驗因果關係的外部有效性/ 291 第六節 大數據和機器學習對因果識別的衝擊/ 292 第七節 未來展望/ 295 參考文獻/ 296 第十章 機器學習與異質性政策效應分析/ 306 第一節 異質性政策效應評估的價值和傳統方法/ 306 第二節 傳統異質性政策評估方法的問題/ 311 第三節 機器學習在異質性政策效應評估中的應用/ 315 第四節 機器學習的局限以及未來方向/ 324 參考文獻/ 330