R统计数据清洗及应用
图书信息
书名:R统计数据清洗及应用作者:马克·范德鲁(Mark,van,der,Loo),埃德温·德荣格(Edwin,杨小冬
包装:平装
开本:16
全文字数:374000
出版社:清华大学出版社
出版时间:2019-5
图书简介
本书以R语言为基础,介绍数据清洗的基本理论和应用,着重强调自动化方法的使用。优秀章重点关注数据清洗的统计价值链,引导读者了解原始数据、输入数据、有效数据等概念。第二章介绍R语言的基本知识和应用,详细阐述命令行、向量、数据帧、函数等基础内容,为后续章节作铺垫。第三章介绍数据的技术表示,解释了数值数据、文本数据、时间和日期表示法等,为读者深入学习数据清洗奠定基础。第四章讲解数据结构,以表格数据、矩阵数据、时间序列、Web数据等为例,逐一介绍了各种数据结构的特点和使用方法。第五章详细讲解清洗文本数据的方法,包括字符规范化、使用正则表达式进行模式匹配、近似文本匹配等。第六章以validate软件包为例,教授如何进行数据验证,并使用实例讲授验证规则的定义、类型和使用方法。第七章介绍如何在数据记录中定位错误。
推荐理由
本书为数据清洗的入门教程,突出自动化方法的使用,既适合新手学习,也适合有经验者参考。书中涉及清洗文本数据的方法、数据验证和错误定位等实际应用章节,对于数据科学、机器学习和统计学等领域的读者有很大帮助。