1??数据仓库与数据挖掘数据清洗对于数据仓库与数据挖掘应用来

说y是核心和基础y它是获取可靠有效数据的一个基本步骤数据仓

库是为了支持决策分析的数据集合y在数据仓库领域y数据清洗一般是

应用在几个数据库合并时或者多个数据源进行集成时例如y消除数据

库中的重复记录数据挖掘是建立在数据仓库基础上的增值技术y在数

据挖掘领域y经常会遇到挖掘出来的特征数据存在各种异常情况y如数

据缺失数据值异常等对于这些情况y如果不加以处理y就会直接影

响到最终挖掘模型的使用效果y甚至会使得创建模型任务失败因此y

在数据挖掘过程中y数据清洗是第一步。

数据质量管理数据质量管理贯穿数据生命周期的全过程在