数据清洗分别解决数据中的哪些问题 如何解决(关于数据清洗的步骤和方法的理解)

数据清洗分别解决数据中的哪些问题 如何解决(关于数据清洗的步骤和方法的理解)

首页维修大全综合更新时间:2024-08-03 12:49:07

数据清洗分别解决数据中的哪些问题 如何解决

数据清洗目的主要有:

①解决数据质量问题;

②让数据更适合做挖掘;

数据清洗是对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用一定方法进行“清洗”,为后续的数据分析做准备。

数据清洗的方法有:

①数据数值化

对存在各种不同格式的数据形式的原始数据,对其进行标准化操作。对字符串取值,按照ANSI码值求和得到字符串的值,如果值太大,取一个适当的质数对其求模。

②标准化 normalization

对整体数据进行归一化工作,利用min-max标准化方法将数据都映射到一个指定的数值区间。

③数据降维

原始数据存在很多维度,使用主成分分析法对数据的相关性分析来降低数据维度。

④数据完整性

数据完整性包括数据缺失补数据和数据去重;

补全数据的方法有:

1. 通过身份证件号码推算性别、籍贯、出生日期、年龄(包括但不局限)等信息补全;

2. 通过前后数据补全;

3. 实在补不全的,对数据进行剔除。

数据去重的方法有:

1. 用sql或者excel“去除重复记录”去重;

2. 按规则去重,编写一系列的规则,对重复情况复杂的数据进行去重。

大家还看了
也许喜欢
更多栏目

© 2021 3dmxku.com,All Rights Reserved.