導覽
近期變更
隨機頁面
新手上路
新頁面
優質條目評選
繁體
不转换
简体
繁體
3.148.231.77
登入
工具
閱讀
檢視原始碼
特殊頁面
頁面資訊
求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。
檢視 Python数据清洗 的原始碼
←
Python数据清洗
前往:
導覽
、
搜尋
由於下列原因,您沒有權限進行 編輯此頁面 的動作:
您請求的操作只有這個群組的使用者能使用:
用戶
您可以檢視並複製此頁面的原始碼。
{| class="wikitable" align="right" |- |<center><img src=https://www0.kfzimg.com/sw/kfz-cos/kfzimg/14256494/6fd174221656da4d_s.jpg width="260"></center> <small>[https://book.kongfz.com/274436/7293487154 来自 孔夫子网 的图片]</small> |} 《'''Python数据清洗'''》,[美] 迈克尔·沃克尔 著,刘亮 译,出版社: 清华大学出版社。 清华大学出版社成立于1980年6月,是教育部主管、[[清华大学]]主办的综合性大学出版社<ref>[http://www.zhongyw.com.cn/news/show-53574.html 我国出版社的等级划分和分类标准],知网出书,2021-03-01</ref>。清华社先后荣获 “先进高校出版社”“全国优秀出版社”“全国百佳图书出版单位”“中国版权最具影响力企业”“首届全国教材建设奖全国[[教材]]建设先进集体”等荣誉<ref>[http://www.tup.tsinghua.edu.cn/aboutus/qyjj.html 企业简介],清华大学出版社有限公司</ref>。 ==内容简介== 《Python数据清洗》详细阐述了与Python数据清洗相关的基本解决方案,主要包括将表格数据导入Pandas中、将HTML和JSON导入Pandas中、衡量数据好坏、识别缺失值和离群值、使用可视化方法识别意外值、使用Series操作清洗和探索数据、聚合时修复混乱数据、组合DataFrame、规整和重塑数据、用户定义的函数和类等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 ==目录== 第1章 将表格数据导入Pandas中 1 1.1 技术要求 1 1.2 导入CSV文件 2 1.2.1 准备[[工作]] 2 1.2.2 实战操作 3 1.2.3 原理解释 5 1.2.4 扩展知识 6 1.2.5 参考资料 7 1.3 导入Excel文件 7 1.3.1 准备工作 8 1.3.2 实战操作 8 1.3.3 原理解释 13 1.3.4 扩展知识 13 1.3.5 参考资料 14 1.4 从SQL[[数据库]]中导入数据 14 1.4.1 准备工作 15 1.4.2 实战操作 15 1.4.3 原理解释 19 1.4.4 扩展知识 21 1.4.5 参考资料 21 1.5 导入SPSS、Stata和SAS数据 21 1.5.1 准备工作 22 1.5.2 实战操作 22 1.5.3 原理解释 28 1.5.4 扩展知识 29 1.5.5 参考资料 30 1.6 导入R数据 30 1.6.1 准备工作 30 1.6.2 实战操作 31 1.6.3 原理解释 33 1.6.4 扩展知识 34 1.6.5 参考资料 34 1.7 保留表格数据 35 1.7.1 准备工作 36 1.7.2 实战操作 36 1.7.3 原理解释 39 1.7.4 扩展知识 39 第2章 将HTML和JSON导入Pandas中 41 2.1 技术要求 41 2.2 导入简单的JSON数据 41 2.2.1 准备工作 42 2.2.2 实战操作 42 2.2.3 原理解释 47 2.2.4 扩展知识 48 2.3 通过API导入更复杂的JSON数据 48 2.3.1 准备工作 49 2.3.2 实战操作 50 2.3.3 原理解释 52 2.3.4 扩展知识 53 2.3.5 参考资料 53 2.4 从网页中导入数据 53 2.4.1 准备工作 54 2.4.2 实战操作 55 2.4.3 原理解释 58 2.4.4 扩展知识 59 2.5 持久保存JSON数据 59 2.5.1 准备工作 60 2.5.2 实战操作 60 2.5.3 原理解释 62 2.5.4 扩展知识 63 第3章 衡量数据好坏 65 3.1 技术要求 66 3.2 初步了解数据 66 3.2.1 准备工作 66 3.2.2 实战操作 67 3.2.3 原理解释 70 3.2.4 扩展知识 71 3.2.5 参考资料 71 3.3 选择和组织列 71 3.3.1 准备工作 72 3.3.2 实战操作 72 3.3.3 原理解释 77 3.3.4 扩展知识 77 3.3.5 参考资料 78 3.4 选择行 79 3.4.1 准备工作 79 3.4.2 实战操作 79 3.4.3 原理解释 86 3.4.4 扩展知识 87 3.4.5 参考资料 87 3.5 生成分类变量的频率 87 3.5.1 准备工作 88 3.5.2 实战操作 88 3.5.3 原理解释 91 3.5.4 扩展知识 92 3.6 生成连续变量的摘要统计信息 92 3.6.1 准备工作 92 3.6.2 实战操作 93 3.6.3 原理解释 95 3.6.4 参考资料 96 第4章 识别缺失值和离群值 97 4.1 技术要求 97 4.2 寻找缺失值 97 4.2.1 准备工作 98 4.2.2 实战操作 98 4.2.3 原理解释 101 4.2.4 参考资料 101 4.3 用一个变量识别离群值 102 4.3.1 准备工作 102 4.3.2 实战操作 102 4.3.3 原理解释 109 4.3.4 扩展知识 109 4.3.5 参考资料 110 4.4 识别双变量关系中的离群值和意外值 110 4.4.1 准备工作 111 4.4.2 实战操作 112 4.4.3 原理解释 118 4.4.4 扩展知识 119 4.4.5 参考资料 119 4.5 检查变量关系中的逻辑不一致情况 119 4.5.1 准备工作 119 4.5.2 实战操作 120 4.5.3 原理解释 126 4.5.4 参考资料 126 4.6 使用线性回归来确定具有重大影响的数据点 126 4.6.1 准备工作 127 4.6.2 实战操作 127 4.6.3 原理解释 129 4.6.4 扩展知识 130 4.7 使用k最近邻算法找到离群值 130 4.7.1 准备工作 130 4.7.2 实战操作 131 4.7.3 原理解释 133 4.7.4 扩展知识 133 4.7.5 参考资料 134 4.8 使用隔离森林算法查找异常 134 4.8.1 准备工作 134 4.8.2 实战操作 134 4.8.3 原理解释 137 4.8.4 扩展知识 138 4.8.5 参考资料 138 第5章 使用可视化方法识别意外值 139 5.1 技术要求 139 5.2 使用直方图检查连续变量的分布 140 5.2.1 准备工作 140 5.2.2 实战操作 141 5.2.3 原理解释 146 5.2.4 扩展知识 147 5.3 使用箱形图识别连续变量的离群值 147 5.3.1 准备工作 148 5.3.2 实战操作 148 5.3.3 原理解释 153 5.3.4 扩展知识 153 5.3.5 参考资料 153 5.4 使用分组的箱形图发现特定组中的意外值 154 5.4.1 准备工作 154 5.4.2 实战操作 154 5.4.3 原理解释 159 5.4.4 扩展知识 159 5.4.5 参考资料 160 5.5 使用小提琴图检查分布形状和离群值 160 5.5.1 准备工作 160 5.5.2 实战操作 161 5.5.3 原理解释 165 5.5.4 扩展知识 166 5.5.5 参考资料 166 5.6 使用散点图查看双变量关系 166 5.6.1 准备工作 167 5.6.2 实战操作 167 5.6.3 原理解释 172 5.6.4 扩展知识 173 5.6.5 参考资料 173 5.7 使用折线图检查连续变量的趋势 173 5.7.1 准备工作 173 5.7.2 实战操作 173 5.7.3 原理解释 178 5.7.4 扩展知识 179 5.7.5 参考资料 179 5.8 根据相关性矩阵生成热图 179 5.8.1 准备工作 180 5.8.2 实战操作 180 5.8.3 原理解释 182 5.8.4 扩展知识 183 5.8.5 参考资料 183 第6章 使用Series操作清洗和探索数据 185 6.1 技术要求 186 6.2 从Pandas Series中获取值 186 6.2.1 准备工作 186 6.2.2 实战操作 187 6.2.3 原理解释 190 6.3 显示Pandas Series的摘要统计信息 190 6.3.1 准备工作 191 6.3.2 实战操作 191 6.3.3 原理解释 193 6.3.4 扩展知识 195 6.3.5 参考资料 195 6.4 更改Series值 195 6.4.1 准备工作 195 6.4.2 实战操作 195 6.4.3 原理解释 198 6.4.4 扩展知识 199 6.4.5 参考资料 199 6.5 有条件地更改Series值 199 6.5.1 准备工作 199 6.5.2 实战操作 200 6.5.3 原理解释 203 6.5.4 扩展知识 205 6.5.5 参考资料 206 6.6 评估和清洗字符串Series数据 206 6.6.1 准备工作 206 6.6.2 实战操作 206 6.6.3 原理解释 210 6.6.4 扩展知识 211 6.7 处理日期 211 6.7.1 准备工作 211 6.7.2 实战操作 212 6.7.3 原理解释 216 6.7.4 参考资料 217 6.8 识别和清洗缺失的数据 217 6.8.1 准备工作 217 6.8.2 实战操作 217 6.8.3 原理解释 221 6.8.4 扩展知识 221 6.8.5 参考资料 221 6.9 使用k最近邻算法填充缺失值 222 6.9.1 准备工作 222 6.9.2 实战操作 222 6.9.3 原理解释 223 6.9.4 扩展知识 224 6.9.5 参考资料 224 第7章 聚合时修复混乱数据 225 7.1 技术要求 226 7.2 使用itertuples遍历数据 226 7.2.1 准备工作 226 7.2.2 实战操作 227 7.2.3 原理解释 229 7.2.4 扩展知识 230 7.3 使用NumPy数组按组计算汇总 231 7.3.1 准备工作 231 7.3.2 实战操作 231 7.3.3 原理解释 233 7.3.4 扩展知识 234 7.3.5 参考资料 234 7.4 使用groupby组织数据 234 7.4.1 准备工作 234 7.4.2 实战操作 234 7.4.3 原理解释 237 7.4.4 扩展知识 237 7.5 通过groupby使用更复杂的聚合函数 237 7.5.1 准备工作 238 7.5.2 实战操作 238 7.5.3 原理解释 242 7.5.4 扩展知识 243 7.5.5 参考资料 244 7.6 结合groupby使用用户定义的函数 244 7.6.1 准备工作 244 7.6.2 实战操作 244 7.6.3 原理解释 247 7.6.4 扩展知识 247 7.6.5 参考资料 248 7.7 使用groupby更改DataFrame的分析单位 248 7.7.1 准备工作 249 7.7.2 实战操作 249 7.7.3 原理解释 250 第8章 组合DataFrame 251 8.1 技术要求 252 8.2 垂直组合DataFrame 252 8.2.1 准备工作 252 8.2.2 实战操作 253 8.2.3 原理解释 256 8.2.4 参考资料 256 8.3 进行一对一合并 256 8.3.1 准备工作 258 8.3.2 实战操作 258 8.3.3 原理解释 262 8.3.4 扩展知识 263 8.4 按多列进行一对一合并 263 8.4.1 准备工作 263 8.4.2 实战操作 263 8.4.3 原理解释 266 8.4.4 扩展知识 266 8.5 进行一对多合并 266 8.5.1 准备工作 267 8.5.2 实战操作 267 8.5.3 原理解释 271 8.5.4 扩展知识 271 8.5.5 参考资料 271 8.6 进行多对多合并 271 8.6.1 准备工作 272 8.6.2 实战操作 272 8.6.3 原理解释 276 8.6.4 扩展知识 277 8.7 开发合并例程 277 8.7.1 准备工作 277 8.7.2 实战操作 278 8.7.3 原理解释 279 8.7.4 参考资料 280 第9章 规整和重塑数据 281 9.1 技术要求 282 9.2 删除重复的行 282 9.2.1 准备工作 282 9.2.2 实战操作 283 9.2.3 原理解释 285 9.2.4 扩展知识 286 9.2.5 参考资料 286 9.3 修复多对多关系 286 9.3.1 准备工作 287 9.3.2 实战操作 287 9.3.3 原理解释 291 9.3.4 扩展知识 292 9.3.5 参考资料 292 9.4 使用stack和melt将数据由宽变长 292 9.4.1 准备工作 293 9.4.2 实战操作 293 9.4.3 原理解释 297 9.5 使用wide_to_long处理多列 297 9.5.1 准备工作 297 9.5.2 实战操作 297 9.5.3 原理解释 299 9.5.4 扩展知识 299 9.6 使用unstack和pivot将数据由长变宽 300 9.6.1 准备工作 300 9.6.2 实战操作 300 9.6.3 原理解释 302 第10章 用户定义的函数和类 303 10.1 技术要求 303 10.2 用于查看数据的函数 303 10.2.1 准备工作 304 10.2.2 实战操作 304 10.2.3 原理解释 307 10.2.4 扩展知识 308 10.3 用于显示摘要统计信息和频率的函数 308 10.3.1 准备工作 308 10.3.2 实战操作 309 10.3.3 原理解释 313 10.3.4 扩展知识 313 10.3.5 参考资料 313 10.4 识别离群值和意外值的函数 314 10.4.1 准备工作 314 10.4.2 实战操作 315 10.4.3 原理解释 319 10.4.4 扩展知识 319 10.4.5 参考资料 319 10.5 聚合或合并数据的函数 319 10.5.1 准备工作 320 10.5.2 实战操作 320 10.5.3 原理解释 325 10.5.4 扩展知识 325 10.5.5 参考资料 326 10.6 包含更新Series值逻辑的类 326 10.6.1 准备工作 326 10.6.2 实战操作 326 10.6.3 原理解释 330 10.6.4 扩展知识 331 10.6.5 参考资料 331 10.7 处理非表格数据结构的类 331 10.7.1 准备工作 332 10.7.2 实战操作 333 10.7.3 原理解释 336 10.7.4 扩展知识 336 ==参考文献== [[Category:040 類書總論;百科全書總論]]
返回「
Python数据清洗
」頁面