干净的数据 数据清洗入门与实践(图灵出品)
图书信息
书名:干净的数据 数据清洗入门与实践(图灵出品)作者:斯夸尔,Megan Squire,任政委
包装:平装
开本:16
页数:200页
出版社:人民邮电出版社
出版时间:2016-5
图书简介
数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。本书详细介绍了数据清洗的重要性和方法。作者从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。本书涵盖多种数据清洗工具和方法,特别是介绍了一些常见数据格式之间的转换方法,如JSON、CSV等,让读者能够自如地处理各种文件格式。另外,本书还详细讲解了三种策略来解析和清洗HTML文件中的数据,以及如何提取和清洗PDF文档中的数据。最后,本书提供了实例项目,让读者通过实践掌握数据清洗技术。
推荐理由
数据清洗在数据挖掘和分析过程中具有重要作用。本书详细阐述了数据清洗的重要性和方法,从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。特别适合从事数据科学工作的从业人员阅读。